强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

原文链接：
强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

1. 强化学习（RL）在语言模型推理中的作用存在争议：尽管多篇论文（如DeepSeek-R1）指出RL能显著提升蒸馏模型的推理性能，但最新研究发现这些改进可能因评估噪声（如随机种子、硬件差异）被夸大，实际收益有限且统计不显著。

2. 评估不稳定性是核心问题：在AIME24等小型基准测试中，随机种子变化可导致得分波动达15%，硬件差异（如GPU类型）甚至造成8%的性能差异。评估框架（如LightEval vs Evalchemy）也会影响结果，差异达1-2个百分点。

3. 关键影响因素被系统分析：研究者识别出四大变异源：
– 采样差异：多种子评估显示Pass@1标准差高达5-15%
– 解码配置：max_new_tokens和prompt格式显著影响准确性
– 硬件异质性：不同GPU集群导致性能差异达6-8%
– 评估框架：工具链选择可能改变模型排名

4. 重要现象发现：
– 响应长度与错误率正相关：超过1万token的响应错误率显著上升，RL/SFT模型均存在此现象
– 多样性坍缩未被证实：RL模型Pass@1提升时，Pass@k通常同步改善，未发现多样性下降证据

5. 解决方案呼吁标准化评估：研究者提出需控制随机种子（建议10次以上）、统一硬件/框架、规范prompt模板和上下文长度（如32768 tokens），以提升结果的可复现性。

6. 学界反思：Sebastian Raschka指出当前LLM研究普遍存在评估标准不足问题，需建立更严谨的基准验证方法有效性。

AI2030