不用英伟达GPU！华为盘古Ultra来了：昇腾原生、135B稠密通用大模型

原文链接：
不用英伟达GPU！华为盘古Ultra来了：昇腾原生、135B稠密通用大模型

1. 华为发布昇腾原生千亿级大模型Pangu Ultra
华为推出基于昇腾NPU训练的1350亿参数稠密模型Pangu Ultra，技术报告显示其性能超越Llama 405B、Mistral Large 2等国际主流模型，并可与DeepSeek-R1等稀疏模型竞争。

2. 突破国产算力瓶颈
研究团队在8192张昇腾NPU集群上实现50%的算力利用率（MFU），通过混合并行策略和虚拟流水线技术将训练空泡率从30.45%降至6.8%，证明国产算力可支撑千亿级大模型训练。

3. 创新训练稳定性技术
提出Depth-scaled sandwich-norm（DSSN）架构和TinyInit初始化方法：
– DSSN通过层深度平方根倒数调控输出尺度，完全消除loss突刺
– TinyInit采用深度/宽度联合缩放策略，加速收敛20%以上

4. 领域感知分词优化
构建153376词元的混合词表，通过独立分析通用文本、代码、数学等领域词频，使专业领域词元覆盖率提升40%，压缩效率保持92%以上。

5. 三阶段课程训练策略
13.2T tokens训练数据分阶段优化：
– 通用阶段（12T）：知识积累
– 推理阶段（0.8T）：数学/代码数据占比超60%
– 退火阶段（0.4T）：指令数据占比提升至20%

6. 强化学习效果显著
在AIME 2024、MATH-500等基准测试中，后训练模型推理能力超越DeepSeek R1，MMLU-pro通用理解得分达82.3%，验证”预训练+强化学习”技术路线的有效性。

AI2030