Meta用40万个GPU小时做了一个实验,只为弄清强化学习Scaling Law

Meta用40万个GPU小时做了一个实验,只为弄清强化学习Scaling Law

 

文章摘要


【关 键 词】 强化学习算力扩展可预测性算法设计性能优化

在大型语言模型(LLM)领域,强化学习(RL)的算力扩展正成为关键研究范式,但其扩展规律尚未明确。Meta等机构的研究者通过40万GPU小时的实验,提出了可预测RL性能的框架ScaleRL,解决了”如何扩展”和”扩展什么”的核心问题。研究发现,RL性能与算力关系遵循类sigmoid饱和曲线,可通过早期小规模实验预测大规模算力下的表现,显著降低研究成本。

研究揭示了三个关键原则:不同方法的性能上限(A值)存在差异,可通过损失函数类型等设计选择调整;小算力表现优异的方法在大规模时可能失效,需通过早期参数估计识别真正可扩展的方案;常见优化技巧主要影响算力效率(B值)而非最终性能。基于这些发现,ScaleRL整合了Pipeline-RL结构、CISPO损失函数等成熟方法,在16万GPU小时的实验中表现出稳定的可预测性,其性能曲线与预测高度吻合。

算法设计层面,研究系统比较了多种技术选择。异步训练结构中,PipelineRL-8比PPO-off-policy提升50%算力效率;损失函数中CISPO优于DAPO和GSPO;FP32精度修正使性能上限从0.52提升至0.61。数据课程策略方面,No-Positive-Resampling方法通过过滤简单提示,将性能上限提高15%。这些优化被整合到ScaleRL中,其留一法实验验证了各组件必要性。

研究还探索了不同扩展维度的效果。增加生成长度虽降低初期效率,但能提升最终性能上限;大批量训练可避免性能停滞,2048批大小下预测误差小于5%;模型规模扩展实验中,17B×16MoE模型仅需8B模型1/6的算力即达到更高性能,证明ScaleRL的规模不变性。这些发现为RL研究提供了首个系统化、可量化的扩展方法论,使研究者能低成本评估算法潜力,推动RL从经验驱动向理论驱动转变。

原文和模型


【原文链接】 阅读原文 [ 3470字 | 14分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...