阶跃发布 Step 3.7 Flash，效率模型开始争夺 Agent 主战场

419 0 0

文章摘要

在人工智能向智能体时代演进的过程中，Flash模型的定位正发生深刻转变，从旗舰模型的轻量版本转变为智能体时代的任务基座。在真实的智能体工作流中，速度、智能与成本的平衡成为核心能力指标。智能体的评价单位不再是单次回答，而是一条完整的任务链路，效率直接决定了任务的完成率与智能上限。

新一代Flash模型在设计上不再追求单个维度的绝对峰值，而是围绕智能体任务链路进行一体化设计。以小参数激活模型为例，其核心策略是保留基础推理引擎，将部分感知边界和世界知识外推至推理阶段，通过高速推理和工具调用来支撑多轮行动。这意味着小参数模型不需要掌握所有知识，而是需要具备知道如何获取知识的能力，通过快速、低成本的多次观察、搜索和验证来推进任务。这种能力组织方式让模型在多模态理解、搜索、工具调用和代码生成方面实现高效协同，使多模态从单次识别变为反复感知，让搜索融入思考链路，并通过代码生成实现复杂任务的自动化执行。

当前多数模型主要为对话场景训练，在结构上难以完全适配智能体所需的持续交错推理与环境反馈循环。智能体要求模型具备长程任务管理能力，并在工具调用与环境反馈中不断评估和调整。由于智能体循环需要大量的中间调用，极致效率的Flash模型凭借速度和成本优势，成为在循环中被反复调用、持续推进任务的理想执行基座，填补了旗舰模型因成本和延迟无法覆盖的生态位。

模型竞争的核心正从单次回答的聪明程度，转向智能体循环中的任务完成效率。在评估智能体基座模型时，任务链路的循环轮数、失败恢复能力以及长期调用的成本支撑成为关键考量。效率不仅是降低智能成本的手段，更已成为智能本身不可或缺的组成部分，推动人工智能在复杂真实场景中的持续落地。