DeepSeek V3.2爆火，Agentic性能暴涨40%解密

40 0 0

文章摘要

交错思维链（Interleaved Thinking）技术正成为解决大模型在复杂任务中“状态漂移”问题的关键机制。当大模型处理长链条任务（如旅行规划）时，传统ReAct（推理-行动）范式容易因环境扰动导致遗忘核心约束，例如忽略“禁止安排剧烈运动”的初始要求。这种现象被称为状态漂移，其本质是模型在工具调用后丢失了中间推理状态。

交错思维链通过强制模型在每次工具调用前后输出显式思考记录，形成“推理-行动-观察-推理”的闭环。MiniMax团队在M2模型的实践中发现，该技术使模型在网页浏览任务（BrowseComp）上的性能提升40%，在复杂推理任务（Tau²）上提升36%。其核心优势在于将长链条任务拆解为原子化思考单元，模型通过保留reasoning_details字段实现自我校准，有效抵抗高扰动环境（如互联网噪音）的干扰。

技术落地的挑战在于行业基础设施的适配。早期开源工具（如LangChain）基于OpenAI的Chat Completion API设计，缺乏存储思考状态的标准化字段。MiniMax通过推动Cline、Kilo Code等开发工具的API改造，使reasoning_details字段成为事实标准。AWS re:Invent 2025大会将MiniMax M2纳入Amazon Bedrock模型库，标志着该技术获得行业认可。

DeepSeek V3.2和Kimi K2 Thinking的跟进验证了技术路线的普适性。尽管命名差异（DeepSeek称thinking in tool-use，Anthropic用thinking_blocks），其核心都是实现思考状态的持久化。OpenAI研究证实，测试时计算的扩展定律（Test-Time Compute Scaling Law）与交错思维链的设计逻辑高度吻合——模型通过显式思考积累，逐步从“复读机”进化为具备长程规划能力的“思想者”。这标志着AI智能体技术正从工具调用层面向推理轨迹泛化层面跃迁。