三星发力大模型!三星研究院联合北大发布 M2RL,系统揭秘多领域RL训练机制
文章摘要
【关 键 词】 M2RL、多域强化学习、模型融合、训练效率、能力迁移
三星研究院联合北京大学开展M2RL研究项目,系统对比混合多任务强化学习与专家模型融合两种后训练范式在构建通用大语言模型中的表现与机制。
研究以Qwen3-4B-Base为基座模型14M规模有监督微调数据为基础,采用GRPO算法,在数学、编程、科学、指令跟随和Agent五个典型领域进行强化学习实验,并评估九项基准测试结果。
实验发现:独立训练的领域专家模型在其对应任务上表现最优;混合多任务RL仅需约63.7%的GPU计算成本即可达到与单独训练后模型融合相当的整体性能,且未观察到显著梯度干扰现象。
更值得注意的是,推理相关领域(数学、编程、科学)之间存在明显正向迁移效应,例如数学领域的RL训练可提升科学基准得分;而指令跟随领域的训练亦对三类推理任务产生稳定增益,表明基础推理能力具有跨域支撑作用。
相比之下,Agent任务与其他领域间未见协同提升,反映其依赖多轮交互与工具调用的特殊性。
在模型融合方面,无需额外训练的权重合并方法(尤其是Ties-merging)效果优异,不仅继承各专家模型核心能力,在AIME’24、AIME’25、HLE、IFEval和BFCL v3等五个基准上甚至超越对应单域专家模型,且优于需额外计算资源的多教师在线蒸馏(MT-OPD)方案。
动态训练过程分析进一步显示,三类推理任务的RL过程能相互促进性能稳定上升,而指令跟随与Agent任务仅由本域RL有效提升自身表现,反向验证了“推理为底层通用能力”的假设。
研究还从信息约束、预测行为及自我验证角度探究多域RL内在机理,证实合理配置的多域强化学习可在不牺牲效率前提下实现能力协同增强。
该工作为千亿级乃至万亿级参数模型的高效后训练提供了实证支持与方法论参考。
原文和模型
【原文链接】 阅读原文 [ 2228字 | 9分钟 ]
【原文作者】 AI科技评论
【摘要模型】 qwen3-vl-plus-2025-12-19
【摘要评分】 ★☆☆☆☆



