微软研究人员指出,并非所有token都符合需求
微软研究人员挑战了语言模型预训练的传统方法,该方法在训练语料库中的所有token上均匀应用下一个token预测损失。他们提出了一种新的语言模型称为RHO-1,该模型利用选择性语言建模。SLM可以扩展到监督微调,以解决数据集中的噪声和分布不匹配,并通过训练一个强调帮助性、真实性和无害性的参考模型来获得在预训练期间获得本地对齐的基本模型。
东方甄选所售广西金桔被博主指出虚假宣传:压根没有这品种
博主水果猎人杨晓洋”在微博发布视频,称东方甄选直播间销售的是广西融安金桔,但购买后收到的是名为广西脆皮金桔”的产品,但融安并无脆皮金桔”这一品种。东方甄选售卖的金桔自营产品包装标注为大果”,实际产品却为15g20g的中果”。官方作出回应,表示脆皮金桔是桂林的,融安县没有这个品种名字。
DeepMind指出「Transformer无法超出预训练数据实现泛化」,但有人投来质疑
说起大语言模型所展示的令人印象深刻的能力,其中之一就是通过提供上下文中的样本,要求模型根据最终提供的输入生成一个响应,从实现少样本学习的能力。这一点依靠的是底层机器学习技术「Transformer模型」,并且它们也能在语言以外的领域执行上下文学习任务。更多研究细节,可参考原论文。