DeepSeek V3.2爆火,Agentic性能暴涨40%解密

AI-Agent7小时前发布 AIera
40 0 0
DeepSeek V3.2爆火,Agentic性能暴涨40%解密

 

文章摘要


【关 键 词】 大模型交错思维链状态漂移工具调用Agent技术

交错思维链(Interleaved Thinking)技术正成为解决大模型在复杂任务中“状态漂移”问题的关键机制。当大模型处理长链条任务(如旅行规划)时,传统ReAct(推理-行动)范式容易因环境扰动导致遗忘核心约束,例如忽略“禁止安排剧烈运动”的初始要求。这种现象被称为状态漂移,其本质是模型在工具调用后丢失了中间推理状态。

交错思维链通过强制模型在每次工具调用前后输出显式思考记录,形成“推理-行动-观察-推理”的闭环。MiniMax团队在M2模型的实践中发现,该技术使模型在网页浏览任务(BrowseComp)上的性能提升40%,在复杂推理任务(Tau²)上提升36%。其核心优势在于将长链条任务拆解为原子化思考单元,模型通过保留reasoning_details字段实现自我校准,有效抵抗高扰动环境(如互联网噪音)的干扰。

技术落地的挑战在于行业基础设施的适配。早期开源工具(如LangChain)基于OpenAI的Chat Completion API设计,缺乏存储思考状态的标准化字段。MiniMax通过推动Cline、Kilo Code等开发工具的API改造,使reasoning_details字段成为事实标准。AWS re:Invent 2025大会将MiniMax M2纳入Amazon Bedrock模型库,标志着该技术获得行业认可。

DeepSeek V3.2和Kimi K2 Thinking的跟进验证了技术路线的普适性。尽管命名差异(DeepSeek称thinking in tool-use,Anthropic用thinking_blocks),其核心都是实现思考状态的持久化。OpenAI研究证实,测试时计算的扩展定律(Test-Time Compute Scaling Law)与交错思维链的设计逻辑高度吻合——模型通过显式思考积累,逐步从“复读机”进化为具备长程规划能力的“思想者”。这标志着AI智能体技术正从工具调用层面向推理轨迹泛化层面跃迁。

原文和模型


【原文链接】 阅读原文 [ 2610字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...