RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能

文章摘要
【关 键 词】 人工智能、强化学习、语言模型、学术研究、机器学习
普林斯顿大学陈丹琦团队最新研究提出基于模型奖励思维的强化学习(RLMT)方法,旨在弥合专门推理能力与通用对话能力之间的差距。该方法通过将显式的思维链推理融入通用聊天模型,使语言模型能够在开放式任务中进行类似人类的审慎思考过程,从而提升整体对话表现。研究团队观察到人类在处理开放式对话任务时会自然进行规划、权衡和修正,因此尝试让语言模型也采用类似的显式推理机制。
当前大语言模型训练面临根本性两难:专门化的推理技能难以推广到日常对话场景,而通用对话模型又缺乏内部推理过程。RLMT方法通过结合RLHF(基于人类反馈的强化学习)和RLVR(可验证奖励的强化学习)的优势,要求语言模型在生成最终回答前先生成推理轨迹,并使用奖励模型对回答进行评分。实验采用两种训练方法:通过有监督微调进行热启动,以及直接在基础模型上进行零训练。
研究结果显示,启用思维的模型在聊天和创意写作任务上显著优于非思维基线模型。特别是在WildBench、AlpacaEval2和ArenaHardV2等聊天基准测试中,RLMT模型展现出明显优势。分析表明,经过RLMT训练的模型表现出更接近优秀写作者的思维习惯:它们更倾向于先列出约束条件和相关子主题,采用迭代式规划风格,并会交叉引用已提及的观点进行修正。
RLMT方法在不同模型架构和训练算法上都展现出有效性,表明其具有广泛适用性。该方法成功将显式推理的优势扩展到通用对话领域,在保持计算效率的同时实现了性能提升。这项研究代表着向更智能、更强大的对话式人工智能系统迈进的重要一步,有望重塑语言模型的训练方式。通过让模型”先思考再表达”,RLMT为开发兼具专业推理能力和自然对话能力的AI系统提供了新思路。
原文和模型
【原文链接】 阅读原文 [ 2212字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆