DeepSeek更新R1推理AI模型,已发布Hugging Face
更新后的 R1 拥有 6850 亿个参数,体量庞大。由于模型规模极大,普通消费者级别的硬件很可能无法直接运行。
让SFT重新伟大!CMU等华人学者提出全新「批判式微调」,媲美复刻版DeepSeek
【新智元导读】在面对复杂的推理任务时,SFT往往让大模型显得力不从心。CMU等机构的华人团队提出了「批判性微调」方法,仅在50K样本上训练,就在大多数基准测试中优于使用超过200万个样本的强化学习方法。进一步的研究也可能包括将CFT与其他训练范式,如SFT和RL相结合,扩展到多模态环境,并研究其理论基础。