文章摘要
【关 键 词】 AI技术、强化学习、模型训练、极简主义、性能优化
清华大学、伊利诺伊大学和上海AI实验室的研究团队提出了一种名为JustRL的全新架构,该架构通过单阶段训练和固定超参数,在DeepSeek-R1-Distill-Qwen-1.5B与Nemotron-1.5B模型上实现了性能突破,同时计算量仅为复杂方法的50%。这一成果挑战了当前小模型强化学习(RL)领域普遍依赖复杂技术堆叠的现状,引发了关于技术必要性的深刻反思。
当前业界对小模型普遍采用蒸馏技术,虽然效率高且稳定性强,但其性能天花板受限于教师模型的能力。强化学习本应成为突破这一限制的关键,但长期以来在小模型上的应用被认为极不稳定且困难重重。过去一年,社区为稳定RL训练引入了多阶段管道、动态超参数调度等复杂技术,但这些技术的实际效用难以准确评估。JustRL通过回归最基本的强化学习要素,移除了绝大多数复杂技巧,仅保留核心算法和轻量级验证器,在两个1.5B推理模型上取得了令人惊讶的效果。
在方法论上,JustRL坚持极简原则:采用单阶段训练、固定超参数、标准数据和基础提示词,仅保留clip higher这一成熟技巧。这种激进简化与其他工作形成鲜明对比,后者往往包含复杂的熵控制、动态采样和多阶段训练。实验数据显示,在DeepSeek-R1-Distill-Qwen-1.5B基座上,JustRL在九个数学基准测试中的平均准确率达到54.87%,超过了采用九阶段训练的ProRL-V2,同时计算量仅为后者的一半。在OpenMath-Nemotron-1.5B基座上,JustRL同样展现出优势,以更少计算量达到甚至略优于采用课程学习方法的QuestA。
训练动力学分析揭示了极简设置下的健康动态:策略熵保持合理震荡,平均奖励持续上升,响应长度自然压缩。这些观察表明,许多复杂技术可能是在解决由复杂设置本身引发的问题。消融研究进一步验证了简单性的价值,添加被视为标准技巧的过长惩罚和鲁棒验证器反而导致性能下降,说明技巧之间存在复杂的相互作用。
这项研究的核心启示在于倡导方法论的转变:应从建立简单基线开始,只有当简单基线被证明确实失效时,才考虑增加复杂性。JustRL的成功证明,在小模型RL领域,去掉花哨技巧后不仅没有坏事发生,反而实现了更优性能、更低成本和更稳定训练。这呼应了圣-埃克苏佩里关于完美的定义:不是在没有什么可添加的时候,而是在没有什么可以去掉的时候。
原文和模型
【原文链接】 阅读原文 [ 3269字 | 14分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




