HuggingFace推出最大的开放合成数据集Cosmopedia 250亿个tokens
HuggingFace推出了Cosmopediav0.1,这是最大的开放合成数据集,由Mixtral7b生成,包含超过3000万个样本,总共约250亿个标记tokens。数据集旨在通过映射来自网页数据集如RefinedWeb和RedPajama的信息来汇编全球知识,包括教科书、博客文章、故事和WikiHow文章等各种内容类型。其目标是通过量身定制提示风格和受众,最大程度地提高多样性,从显著减少重复内容。