文章摘要
【关 键 词】 强化学习、大模型、后训练、效率优化、组级回放
在大模型可验证奖励强化学习(RLVR)的后训练过程中,让模型生成多条长链推理回答的成本极其高昂。当同一提示词下的多条回答全部正确或全部错误时,其奖励方差为零,导致这些样本成为无法提供有效梯度更新信号的无效样本,造成大量算力浪费。现有的主动采样或预测式采样等方法虽然能过滤无效样本,但往往需要额外生成大量回答或面临预测不稳定的问题,代价十分高昂。
针对上述训练信号缺失与算力浪费问题,清华大学研究团队提出了POPO(组优先级离轨优化)框架。该框架不再为无效样本额外生成回答,而是将当前训练批次中的无效组替换为最近缓存的高质量有效组,并通过解耦式离轨重要性采样实现参数的稳定更新。POPO的核心设计包含两个方面:一是采用优先级组回放机制,确保回放的完整有效组来自同一历史行为策略,从而维持组内一致性并提供清晰的学习信号;二是引入解耦式离轨优化,将行为策略与近端约束策略分离,在修正历史数据分布偏差的同时,不牺牲当前策略更新的稳定性。
在数学推理、数值规划和视觉几何三类复杂推理任务的实验中,POPO展现出卓越的效率优势。实验结果表明,POPO在大幅减少生成数量和训练时间的情况下,取得了与高资源消耗方法相近甚至略优的性能表现。例如在DeepScaleR数学任务中,POPO仅消耗约30%的生成预算即可达到相近的训练效果,其训练时间显著缩短。研究证实,通过精准过滤无效样本并高效复用历史有效训练信号,能够有效突破大模型推理后训练中的算力瓶颈,实现从盲目增加生成量向减少资源浪费的范式转变。
原文和模型
【原文链接】 阅读原文 [ 4126字 | 17分钟 ]
【原文作者】 量子位
【摘要模型】 qwen3.7-max-2026-05-20
【摘要评分】 ★★★★☆



