原文链接:
苹果发现原生多模态模型Scaling Laws:早融合优于后融合,MoE优于密集模型
苹果发现原生多模态模型Scaling Laws:早融合优于后融合,MoE优于密集模型
1. 多模态大模型的发展方向
谷歌Gemini 2.0推出后,原生多模态模型(NMM)被视为正确方向。研究对比了”组合式”与”从零训练”的NMM,发现早融合架构在低参数量下性能更优,训练效率更高。
2. 核心研究发现
• 早融合与后融合模型性能相当,但早融合在低计算预算时略优
• NMM的Scaling Law与纯文本LLM类似(L ∝ C^−0.049)
• 后融合模型需要更多参数(参数数据比更高)
• 稀疏性显著提升早融合性能,模态无关路由优于模态感知路由
3. 关键数据洞察
• 计算最优模型参数关系:N∗ ∝ C^0.526
• 图像说明数据性能提升更快(L ∝ C^−0.061 vs 多模态交织的−0.046)
• 早融合模型训练速度比后融合快30%,内存消耗更少
4. 训练策略比较
• 原生训练在图像说明数据上仅需100B token即可匹敌LLM持续训练
• 多模态交织数据需1T token才能达到相当性能
• 混合专家(MoE)模型在相同推理成本下性能提升显著
5. 未来方向
建议采用统一架构内的多模态特化,通过MoE学习模态专属权重。实验显示15亿参数的稀疏MoE模型在指令微调阶段优于密集模型。