DeepSeek R2来了?全新推理时Scaling论文联手清华震撼发布!
【新智元导读】DeepSeek新论文来了!在清华研究者共同发布的研究中,他们发现了奖励模型推理时Scaling的全新方法。DeepSeekR2,果然近了。他们用包含300个样本的降采样测试集测试了DeepSeek-R1,发现其性能甚至不如236BMoERFT模型,这表明延长推理任务的思维链并不能显著提升通用RM的性能。