智源联合共建单位开源可信中文互联网语料库CCI
智源研究院联合拓尔思、中科闻歌共建了“中文互联网语料库”,旨在为大数据和人工智能行业提供安全、可靠的语料资源。该语料库经过严格的筛选和清洗,包括基于规则和模型的过滤,以及针对评测数据集的严格过滤。智源研究院还开放了其他高质量中文数据集,如WUDAOcopora、COIG和MTP。