离职阿里后，林俊旸首次复盘千问得失

44 0 0

文章摘要

林俊旸在《从“推理式思考”到“智能体式思考”》一文中系统梳理了当前大模型技术发展的关键阶段与未来方向。他将2024—2025年界定为“推理思考”阶段，以OpenAI的o1和DeepSeek-R1为代表，核心突破在于证明“思考”可作为可训练、可交付的一流能力，其本质依赖强化学习（RL）实现对正确性的优化而非合理性推演。这一阶段凸显出基础设施的决定性作用——推理RL已从微调附件演变为需高吞吐验证的系统工程挑战。

文章进一步指出，“思考模式”与“指令模式”的融合实践存在深层障碍：尽管Qwen3尝试构建混合思维模式并引入可控预算与四阶段后训练流程，但二者在数据分布与行为目标上存在显著差异。实践中，大量商业用户更青睐高吞吐、低成本的指令型响应；分离路线反而更优——2507版本据此推出独立Instruct与Thinking系列，提升训练聚焦度与产品适配性。尽管Anthropic与GLM-4.5等厂商坚持集成路径，但林俊旸强调真正成功的融合应是推理努力的连续光谱表达，而非机械切换，这指向“政策级算力调控”取代二元开关的新逻辑。

该文揭示出AI范式跃迁的本质转向：竞争重心正由单模型性能比拼，转向“模型—环境”协同系统建设。智能体式思考（Agentic Thinking）成为下一代核心范式，其特征是“为行动而思考”，必须应对计划制定、工具调用、不确定反馈及多轮连贯性维护等复杂问题。他认为未来优势将建立于三方面：环境质量——包括稳定性、真实性、反馈丰富度及抗过拟合性；训练-服务一体化架构；以及多智能体组织设计——即由规划者、领域专家和执行子代理构成的分布式决策单元。

<强>“推理时代的优势源于更好的RL算法和反馈信号；而在智能体时代，竞争优势将建立在更优质的环境设计、更紧密的训练-服务一体化架构、以及更强大的智能体协同工程之上。”
<强>“智能体思维的核心是‘为行动而思考’，它必须处理纯推理模型无需面对的难题：决定何时行动、调用何种工具、处理环境的不确定反馈、在失败后修订计划、在多轮交互中保持连贯。”
<强>“真正的难题远不止于此……大量客户在批量操作中仍需要高性价比、高可控的指令行为。”
<强>“若对合并后的数据不加以精心筛选，最终结果往往两头不讨好：所谓的‘思考’型行为变得杂乱无章、臃肿不堪，或缺乏足够的决断力；而‘指令’型行为则变得不够干脆利落、可靠性降低，且成本高于商业用户的需求。”