天津大学牵头「拧干」RLVR「低效海绵」:ICLR 2026新作ReMix 让样本效率暴涨 30–450 倍
文章摘要
【关 键 词】 强化学习、大模型、样本效率、后训练微调、ICLR2026
随着大语言模型在复杂推理任务中的广泛应用,强化学习已成为激发其深度思考潜力的核心范式。然而,当前主流的强化微调方法普遍面临严重的样本效率瓶颈,导致训练成本居高不下。针对这一关键挑战,天津大学与上海人工智能实验室联合团队提出了ReMix方法,通过创新性地融合Off-policy学习机制,在保持模型性能的同时显著提升了训练效率。
ReMix的核心突破体现在三个协同设计的组件上。Mix-policy Proximal Policy Gradient通过重构重要性采样比率,使历史数据得以重复利用;KL-Convex Policy Constraint采用动态参考目标,平衡了模型探索与稳定性;Policy Reincarnation机制则实现了训练过程从高效学习到稳定收敛的无缝过渡。实验结果表明,该方法在数学推理任务中仅需传统方法1/30至1/450的采样数据量,就能达到同等甚至更优的性能水平。
深入的分析揭示了Off-policy训练中的”鞭梢效应”现象。研究发现,过度的Off-policyness会导致模型倾向于生成更短回复,并减少自我反思行为,最终引发性能崩塌。ReMix通过阶段性训练策略有效缓解了这一现象,在初期快速提升性能的同时,确保了后期的稳定收敛。这种动态平衡的机制不仅适用于数学推理,在代码生成等长逻辑任务中也展现出卓越的泛化能力。
该方法在多个基准测试中取得了突破性成果。在1.5B参数模型上,ReMix仅需0.079M数据就达到了传统方法2.519M数据的性能;7B模型上更是以1/450的数据量实现了与SOTA方法相当的准确率。消融实验证实了各组件设计的必要性,特别是Policy Reincarnation对维持长期性能的关键作用。此外,Pass@k评估表明该方法不仅提升了单次推理质量,还显著扩展了解题空间。
这项研究为大模型高效训练开辟了新路径。通过系统解决Off-policy数据利用的稳定性难题,ReMix为降低大模型训练成本提供了可行方案。其设计理念与现有方法具有正交性,可与其他优化技术结合使用。随着大模型向多模态、长记忆方向发展,这种提升样本效率的方法将显示出更大价值,为后续研究提供了重要参考框架和技术基础。
原文和模型
【原文链接】 阅读原文 [ 4960字 | 20分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★



