强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

原文链接:
强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展


1. 强化学习(RL)在语言模型推理中的作用存在争议:尽管多篇论文(如DeepSeek-R1)指出RL能显著提升蒸馏模型的推理性能,但最新研究发现这些改进可能因评估噪声(如随机种子、硬件差异)被夸大,实际收益有限且统计不显著。

2. 评估不稳定性是核心问题:在AIME24等小型基准测试中,随机种子变化可导致得分波动达15%,硬件差异(如GPU类型)甚至造成8%的性能差异。评估框架(如LightEval vs Evalchemy)也会影响结果,差异达1-2个百分点。

3. 关键影响因素被系统分析:研究者识别出四大变异源:
采样差异:多种子评估显示Pass@1标准差高达5-15%
解码配置:max_new_tokens和prompt格式显著影响准确性
硬件异质性:不同GPU集群导致性能差异达6-8%
评估框架:工具链选择可能改变模型排名

4. 重要现象发现
响应长度与错误率正相关:超过1万token的响应错误率显著上升,RL/SFT模型均存在此现象
多样性坍缩未被证实:RL模型Pass@1提升时,Pass@k通常同步改善,未发现多样性下降证据

5. 解决方案呼吁标准化评估:研究者提出需控制随机种子(建议10次以上)、统一硬件/框架、规范prompt模板和上下文长度(如32768 tokens),以提升结果的可复现性。

6. 学界反思:Sebastian Raschka指出当前LLM研究普遍存在评估标准不足问题,需建立更严谨的基准验证方法有效性。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注