超越DeepSeek-R1英伟达开源新王登顶！14万H100小时训练细节曝光

原文链接：
超越DeepSeek-R1英伟达开源新王登顶！14万H100小时训练细节曝光

英伟达Llama-Nemotron系列模型：开源新王超越DeepSeek-R1

模型突破性成就：英伟达推出Llama-Nemotron系列模型（LN-Nano 8B、LN-Super 49B、LN-Ultra 253B），在推理吞吐量、内存效率及性能上全面超越DeepSeek-R1，且全部开源。其中LN-Ultra可在单个8xH100节点运行，成为当前最智能的开源模型。

创新架构设计：采用Puzzle神经架构搜索框架，通过逐块局部蒸馏和FFN融合技术优化推理效率。Puzzle框架利用混合整数规划实现模块化配置，在计算成本与模型准确性间取得最佳平衡，显著降低跨GPU通信开销。

五阶段训练流程：包含神经架构搜索、知识蒸馏、监督微调（SFT）、强化学习（RL）及对齐训练。其中强化学习阶段通过FP8精度生成和课程训练策略，使LN-Ultra在GPQA-D基准测试中超越教师模型DeepSeek-R1。

推理开关功能：全球首创通过系统提示词「detailed thinking on/off」动态切换推理模式，无需更换模型即可实现日常对话与复杂多步骤推理的统一。

性能评估亮点：LN-Ultra在GPQA-Diamond准确率与吞吐量对比中全面领先，且在Arena Hard测试中得分88.3，超越Claude 3.5 Sonnet和GPT-4o等专有模型。LN-Nano虽参数量小，但在AIME、MATH500等推理基准测试中表现优异。

AI2030