大模型训练省钱秘籍：清华POPO一招组级回放，把浪费的算力全部捡回来

58 0 0

文章摘要

在大模型可验证奖励强化学习（RLVR）的后训练过程中，让模型生成多条长链推理回答的成本极其高昂。当同一提示词下的多条回答全部正确或全部错误时，其奖励方差为零，导致这些样本成为无法提供有效梯度更新信号的无效样本，造成大量算力浪费。现有的主动采样或预测式采样等方法虽然能过滤无效样本，但往往需要额外生成大量回答或面临预测不稳定的问题，代价十分高昂。

针对上述训练信号缺失与算力浪费问题，清华大学研究团队提出了POPO（组优先级离轨优化）框架。该框架不再为无效样本额外生成回答，而是将当前训练批次中的无效组替换为最近缓存的高质量有效组，并通过解耦式离轨重要性采样实现参数的稳定更新。POPO的核心设计包含两个方面：一是采用优先级组回放机制，确保回放的完整有效组来自同一历史行为策略，从而维持组内一致性并提供清晰的学习信号；二是引入解耦式离轨优化，将行为策略与近端约束策略分离，在修正历史数据分布偏差的同时，不牺牲当前策略更新的稳定性。

在数学推理、数值规划和视觉几何三类复杂推理任务的实验中，POPO展现出卓越的效率优势。实验结果表明，POPO在大幅减少生成数量和训练时间的情况下，取得了与高资源消耗方法相近甚至略优的性能表现。例如在DeepScaleR数学任务中，POPO仅消耗约30%的生成预算即可达到相近的训练效果，其训练时间显著缩短。研究证实，通过精准过滤无效样本并高效复用历史有效训练信号，能够有效突破大模型推理后训练中的算力瓶颈，实现从盲目增加生成量向减少资源浪费的范式转变。