三星发力大模型！三星研究院联合北大发布 M2RL，系统揭秘多领域RL训练机制

AI-Agent2天前发布 aitechtalk

117 0 0

文章摘要

【关键词】 M2RL、多域强化学习、模型融合、训练效率、能力迁移

三星研究院联合北京大学开展M2RL研究项目，系统对比混合多任务强化学习与专家模型融合两种后训练范式在构建通用大语言模型中的表现与机制。

研究以Qwen3-4B-Base为基座模型14M规模有监督微调数据为基础，采用GRPO算法，在数学、编程、科学、指令跟随和Agent五个典型领域进行强化学习实验，并评估九项基准测试结果。

实验发现：独立训练的领域专家模型在其对应任务上表现最优；混合多任务RL仅需约63.7%的GPU计算成本即可达到与单独训练后模型融合相当的整体性能，且未观察到显著梯度干扰现象。

更值得注意的是，推理相关领域（数学、编程、科学）之间存在明显正向迁移效应，例如数学领域的RL训练可提升科学基准得分；而指令跟随领域的训练亦对三类推理任务产生稳定增益，表明基础推理能力具有跨域支撑作用。

相比之下，Agent任务与其他领域间未见协同提升，反映其依赖多轮交互与工具调用的特殊性。

在模型融合方面，无需额外训练的权重合并方法（尤其是Ties-merging）效果优异，不仅继承各专家模型核心能力，在AIME’24、AIME’25、HLE、IFEval和BFCL v3等五个基准上甚至超越对应单域专家模型，且优于需额外计算资源的多教师在线蒸馏（MT-OPD）方案。

动态训练过程分析进一步显示，三类推理任务的RL过程能相互促进性能稳定上升，而指令跟随与Agent任务仅由本域RL有效提升自身表现，反向验证了“推理为底层通用能力”的假设。

研究还从信息约束、预测行为及自我验证角度探究多域RL内在机理，证实合理配置的多域强化学习可在不牺牲效率前提下实现能力协同增强。

该工作为千亿级乃至万亿级参数模型的高效后训练提供了实证支持与方法论参考。

原文和模型

【原文链接】 阅读原文 [ 2228字 | 9分钟 ]
【原文作者】 AI科技评论
【摘要模型】 qwen3-vl-plus-2025-12-19
【摘要评分】 ★☆☆☆☆

阿里云百炼

大模型服务平台是阿里云基于通义大模型等多种大模型的一站式大模型开发平台。

# AI-Agent # AIGC动态 # 大模型 # M2RL # 多域强化学习 # 模型融合 # 能力迁移 # 训练效率

文章版权归作者所有，未经允许请勿转载。

出人意料！DeepSeek-R1用的GRPO其实非最优？规模化强化学习训练用PPO就够了

机器之心

2,381

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

机器之心

2,330

能精准解读X光片，开源视觉大模型Dragonfly

AIGC开放社区

3,986

谢赛宁新作：表征学习有多重要？一个操作刷新SOTA，DiT训练速度暴涨18倍

新智元

3,375

吞吐量最高飙升20倍！豆包大模型团队开源RLHF框架，破解强化学习训练部署难题

新智元

3,334

革命新架构掀翻Transformer！无限上下文处理，2万亿token碾压Llama 2

新智元

3,240

暂无评论

暂无评论...

三星发力大模型！三星研究院联合北大发布 M2RL，系统揭秘多领域RL训练机制

文章摘要

原文和模型

用 1000 亿现金储备，理想汽车想买一张通往 AI 时代的船票

Physical AI 系列活动硅谷站！

相关文章

暂无评论

热门网址

热门文章

三星发力大模型！三星研究院联合北大发布 M2RL，系统揭秘多领域RL训练机制

文章摘要

原文和模型

用 1000 亿现金储备，理想汽车想买一张通往 AI 时代的船票

Physical AI 系列活动硅谷站！

相关文章

暂无评论

Trac-AI IDE

星辰Agent

讯飞文书-办公助手

热门网址

热门文章