美团上线首个开源“重思考”模型

AIGC动态8小时前发布 TMTPOSTAGI
72 0 0
美团上线首个开源“重思考”模型

 

文章摘要


【关 键 词】 AI模型开源技术智能体工具调用强化学习

美团LongCat团队近日开源了升级版AI模型LongCat-Flash-Thinking-2601,该模型在智能体搜索、工具调用及工具交互推理等核心评测基准上达到开源模型领先水平。新模型在工具调用的泛化能力上表现尤为突出,在随机复杂任务中的性能超越了Claude-Opus-4.5-Thinking,显著降低了新工具适配的训练成本。

模型创新性地引入了”重思考”模式,可同时启动8个并行思考单元处理高难度问题。该模式通过”并行思考”和”总结归纳”两个阶段运作:首先生成多条独立推理路径寻找最优解,随后对路径进行优化整合形成闭环迭代。团队还特别强化了模型的归纳能力,使其能够实现更审慎的决策过程。

为验证模型性能,团队开发了创新的自动化评测方法。通过构建随机任务生成系统,能够针对任意场景自动创建复杂任务及配套工具集,有效测试模型在未知环境中的适应能力。测试结果显示,LongCat-Flash-Thinking-2601在编程、数学推理等领域的多数任务中保持性能领先。

技术实现上,团队突破了传统智能体训练的局限性。采用”环境扩展+多环境强化学习“方案,构建了包含60余种工具的高复杂度训练环境,形成密集的依赖关系网络。这种多环境强化训练方法证明,训练场景的多样性直接提升模型在未知环境中的泛化能力,使其在分布外任务中的表现优于Claude最新模型。

该模型的成功开源标志着智能体技术在实用化方向取得重要进展。其突出的工具调用泛化能力为降低AI应用部署门槛提供了新思路,而”重思考”架构则为复杂问题求解提供了可扩展的框架。团队表示,这些技术创新将推动AI系统在真实场景中的适应性和可靠性达到新高度。

原文和模型


【原文链接】 阅读原文 [ 874字 | 4分钟 ]
【原文作者】 钛媒体AGI
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...