Llama 2打败GPT-4!Meta让大模型自我奖励自迭代,再证合成数据是LLM终局
【新智元导读】AI训AI必将成为一大趋势。Meta和NYU团队提出让大模型「自我奖励」的方法,让Llama2一举击败GPT-40613、Claude2、GeminiPro领先模型。还有人表示「令人惊讶的是,每次迭代的改进几乎保持线性,仅在3次迭代之后,就已经接近GPT-4级别」。
大模型自我奖励:Meta让Llama2自己给自己微调,性能超越了GPT-4
大模型领域中,微调是改进模型性能的重要一步。随着开源大模型逐渐变多,人们总结出了很多种微调方式,其中一些取得了很好的效果。大模型可以通过搜索数据库来验证其答案的准确性,从获得更准确和可靠的输出。
Parrot提出新型多重奖励强化学习框架以改进文本生成图像
在使用强化学习进行文本生成图像时,质量奖励成为一个紧迫问题。尽管观察到通过强化学习RL可能提高图像质量,但多个奖励的聚合可能导致在某些度量中过度优化在其他度量中降级。但在Parrot潜在生成不当内容的能力方面引发了伦理关切,强调了在部署中进行审查和伦理考虑的必要性。
特斯拉推出新一期引荐奖励:购车可减1750元 90天EAP
特斯拉宣布,从今日起,全新一期引荐奖励正式上线。在此次活动中,购车人通过好友引荐购买ModelY/S/X车型,可以获得1750元的引荐奖励以及90天增强版辅助驾驶的免费试用权。引荐人也将获得7000分的积分奖励,可以在积分商城内兑换超级充电里程额度、特斯拉无线话筒、高级车载娱乐包1年试用权以及增强版自动辅助驾驶90天使用权。
Epic两款游戏免费领取:立省297元!
Epic最新的周免游戏已经开放领取,本周可免费领取的游戏为《Thief》和《天外世界:太空人之选》,可前往游戏官方商城领取。《Thief》游戏原价98元,是一款由Eidos-Montral开发、EidosInteractiveCorporation发行的第一人称动作游戏,于2014年2月25日首度发售。需要注意的是免费领取时间截至4月11日23点,不要错过时间。