超越DeepSeek-R1英伟达开源新王登顶!14万H100小时训练细节曝光

原文链接:
超越DeepSeek-R1英伟达开源新王登顶!14万H100小时训练细节曝光

英伟达Llama-Nemotron系列模型:开源新王超越DeepSeek-R1

模型突破性成就:英伟达推出Llama-Nemotron系列模型(LN-Nano 8B、LN-Super 49B、LN-Ultra 253B),在推理吞吐量、内存效率及性能上全面超越DeepSeek-R1,且全部开源。其中LN-Ultra可在单个8xH100节点运行,成为当前最智能的开源模型。

创新架构设计:采用Puzzle神经架构搜索框架,通过逐块局部蒸馏FFN融合技术优化推理效率。Puzzle框架利用混合整数规划实现模块化配置,在计算成本与模型准确性间取得最佳平衡,显著降低跨GPU通信开销。

五阶段训练流程:包含神经架构搜索、知识蒸馏、监督微调(SFT)、强化学习(RL)及对齐训练。其中强化学习阶段通过FP8精度生成和课程训练策略,使LN-Ultra在GPQA-D基准测试中超越教师模型DeepSeek-R1。

推理开关功能:全球首创通过系统提示词「detailed thinking on/off」动态切换推理模式,无需更换模型即可实现日常对话与复杂多步骤推理的统一。

性能评估亮点:LN-Ultra在GPQA-Diamond准确率与吞吐量对比中全面领先,且在Arena Hard测试中得分88.3,超越Claude 3.5 Sonnet和GPT-4o等专有模型。LN-Nano虽参数量小,但在AIME、MATH500等推理基准测试中表现优异。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注