为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维

文章摘要
【关 键 词】 语言模型、强化学习、奖励噪音、思考模式、预训练
语言模型对强化学习中的奖励噪音表现出显著的鲁棒性,即使奖励信号被部分翻转,模型在下游任务中的表现也不会显著下降。研究者发现,强化学习对下游任务的提升,关键在于模型是否能够产生高质量的思考过程,而非奖励的准确性。通过分析模型输出中的关键思考词,研究者设计了一种极简的奖励机制——Reasoning Pattern Reward(RPR),该机制仅基于思考关键词的出现频率给予奖励,而不考虑答案的正确性。实验表明,仅使用RPR机制,模型在数学任务中的准确率从5%提升至70%以上,尽管后续训练中准确率有所下降,但这一现象表明思考模式在模型能力提升中的重要性。
研究者在数学任务和开放性NLP任务中验证了语言模型对奖励噪音的鲁棒性。在数学任务中,即使奖励信号被完全随机化,模型的表现依然保持稳定。在开放性任务中,当奖励模型的准确率超过75%时,不同奖励模型训练得到的语言模型在下游任务中的主观评测得分相似,表明语言模型能够容忍一定程度的奖励噪声。然而,当奖励模型准确率低于75%时,训练效果显著下降,这表明语言模型对奖励噪音的耐受限度。
为了进一步提升奖励模型的效果,研究者提出通过RPR对奖励模型进行校准。实验表明,经过RPR校准后,即使奖励模型的准确率较低,模型在下游任务中的表现也能接近高准确率奖励模型训练出的效果。此外,RPR校准还成功避免了较小模型在训练中的崩溃现象,使其在复杂开放任务中表现出良好的解题思路。
研究者强调,强化学习对语言模型的影响更在于改变其输出风格,形成良好的思考模式,而非教授新知识。这一发现为强化学习后训练算法的改进提供了新思路。同时,研究者指出,模型预训练技术的增强仍然至关重要,因为预训练阶段的能力提升对下游任务的表现构成瓶颈。例如,Llama3预训练模型由于难以生成高质量的思考路径,导致其在各个任务中的表现和抗噪音能力远逊色于Qwen模型。
总体而言,语言模型对奖励噪音的鲁棒性及其对思考模式的依赖,为强化学习在语言模型中的应用提供了新的视角,同时也强调了预训练阶段能力提升的重要性。
原文和模型
【原文链接】 阅读原文 [ 2415字 | 10分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★