人大高瓴赵鑫团队新作:先拆掉 RLVR,再重建推理模型训练

AIGC动态3小时前发布 aitechtalk
68 0 0
人大高瓴赵鑫团队新作:先拆掉 RLVR,再重建推理模型训练

 

文章摘要


【关 键 词】 大模型强化学习推理能力训练机制非对称加权

当大语言模型开始被要求解数学题、写证明、规划任务流程,人们才真正意识到一件事:会生成并不等于会推理。过去几年,行业通过扩大模型规模和采用RLHF等技术,使模型输出更接近人类回答,但一个尖锐问题随之浮现:模型为何有时会自信地输出错误答案,有时又显得犹豫不决?这一现象引发了对强化学习中正负样本作用的深入思考。

来自人大高瓴学院的赵鑫团队围绕这一问题展开研究,提出了A3PO方法。研究发现,正样本主要收缩策略空间,使模型在正确路径上更加笃定,而负样本则扩张策略空间,推动模型探索新路径。实验表明,仅使用正样本训练(PSR)会导致模型熵值下降、输出变短,仅使用负样本训练(NSR)则使模型保持较高熵值、生成更长回答。两者结合(DAPO)时,模型表现最为平衡。

研究进一步发现,训练效果的关键并非整条样本,而是推理过程中那些冷门却正确、或自信但错误的关键token。基于这一发现,A3PO方法对正样本中的低概率正确token给予更高奖励,对负样本中的高概率错误token施加更强惩罚。实验数据显示,在Qwen2.5-7B-Math等模型上,A3PO在多个基准测试中均取得显著提升,如AIME24分数从27.6提高到31.5。

在方法设计上,研究团队首先通过系统实验分析了正负样本的不同作用,然后细粒度地调整token级别的advantage权重。A3PO采用自适应非对称加权机制,初期强化关键token的影响,后期逐步衰减,实现从探索到收敛的自然过渡。与GRPO、DAPO等方法相比,A3PO在保持探索能力的同时,带来了稳定的性能提升。

这项研究的核心价值在于,它将原本模糊的强化学习训练过程转化为具有清晰机制解释的框架。不仅揭示了正负样本的本质区别,还指出了影响训练效果的关键决策点。这一认识为模型对齐、多模态推理等领域提供了新思路,即通过精细调控关键token来优化模型行为。研究结果表明,大模型的进步不再仅依赖规模扩大,而更需要深入理解训练机制本身。

原文和模型


【原文链接】 阅读原文 [ 3539字 | 15分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...