Together AI发布RedPajama v2:包内30万亿token数据集,用于训练大型语言模型
TogetherAI最近发布了RedPajamav2,这是一个庞大的在线数据集,包含了30万亿token,成为目前公开可用的最大数据集之一,专门用于学习型机器学习系统的培训。对于像Llama、Mistral、Falcon、MPT和RedPajama等最先进的开放式LLM,高质量的数据至关重要,但由于HTML到纯文本的转换引发的异常、通常质量较低的数据来源以及网络内容传播中固有的偏见,这些数据未经精细处理,不适合直接用于LLM的培训。这一工作将为LLM领域的研究和应用提供更多的有力数据支持。