超越DeepSeek-R1,英伟达开源新王登顶,14万H100小时训练细节全曝光
英伟达发布开源Llama-Nemotron系列模型,性能超越DeepSeek-R1。该系列包含三个版本:8B、49B和253B参数模型,其中253B的Ultra版本在推理吞吐量和内存效率上表现突出。关键技术包括:1)采用神经架构搜索优化模型结构;2)通过知识蒸馏和持续预训练提升性能;3)结合合成数据监督微调;4)在STEM领域进行大规模强化学习训练。Ultra版本在GPQA基准测试中达到开源模型最高水平,单节点8xH100即可高效运行。模型创新性支持"推理开关"功能,通过指令动态切换推理模式。训练流程包含五阶段优化,最终模型在数学推理和通用任务上均表现优异,部分基准超越专有模型。