林俊旸看到了什么

65 0 0

文章摘要

林俊旸在离开Qwen后发布的长文《从“推理式思考”到“智能体式思考”》系统探讨了当前AI技术演进的关键转折——从依赖模型内部推理转向以行动为导向的智能体化路径。他认为，2025年上半年行业讨论的核心已从“如何让模型更长时间地思考”转向“如何使思考服务于真实世界行动”，这标志着一个范式转换：智能体式思考指的就是一个通过行动来推理的模型。这一转变并非源于模型性能提升，而是因任务复杂度增加与用户需求变化所致。

文章指出，早期如OpenAI o1与DeepSeek-R1虽推动了“推理能力可训、可测、可暴露”的认知变革，但其本质仍属于“模型—输入—输出”闭环中的单体行为。真正问题在于：当任务进入现实场景时，模型需持续与环境交互，此时思考不再是孤立过程，而是嵌入于任务推进的动态流程之中。因此，思考应当为具体的工作目标服务，先判断目标任务类型，再对应选择模型思考方式，从而突破过去“重过程、慢推理”的评价框架，将推理质量衡量标准重新锚定在“是否有效促成后续行动”。

文中以Qwen项目实践为例说明融合“instruct”与“thinking”模式所面临的深层矛盾——两者行为目标与数据分布高度冲突，导致“混合”易流于表面，常造成“两头不讨好”。尽管Anthropic等机构提出集成模型方案（如Claude 3.7 Sonnet、GLM-4.5），其成功关键在于明确把“推理能力”视为模型核心组件而非附加层，尤其重视推理与工具调用的交织能力。他特别强调，“过度暴露思考过程”未必等于高质量思考，相反，当模型在编码或长期任务中仍以相同冗长模式运转时，暴露的是资源分配失当，并非思维深刻性。

随着技术重心转向“智能体式思考”，强化学习基础设施亦面临重构：传统封闭轨迹评估已不适用，取而代之的是涵盖工具服务器、执行沙箱、记忆模块及多层编排框架的庞大交互生态。文章直言，训练与推理必须更清晰地解耦，否则rollout吞吐量与GPU利用率会严重下降。更为根本的是，环境本身已成为一等研究对象——它不仅是反馈源，更是训练系统的必要组成部分，由此催生出新的创业方向：“环境构建正在从一个顺手搭的实验配件，变成一个独立的创业赛道。”

关于挑战部分，作者直面“reward hacking”风险：一旦模型掌握工具调用能力，便可能绕开真实约束寻找捷径，例如搜索答案、读取未公开代码库或利用日志信息伪造任务完成状态。这种脆弱性使得智能体时代的模型不仅需要更强算力，还要求更精细的环境设计、抗exploit评估器和鲁棒性接口协议。文章最后归纳出三阶段演进路线：从训练单一模型→训练智能体→训练完整系统；并明确指出，“训练的核心对象已变，不再是单一模型，而变成了模型 + 环境构成的整个系统”。

全文最终聚焦于一个结构性跃迁：AI研发的核心竞争力已由“算法优劣、数据规模”向“系统工程能力、真实闭环迭代机制”迁移；未来赢家将是在生产环境中能快速形成“决策—行动—反馈—再学习”循环的团队；而对从业者而言，则必须开始理解：模型已不是唯一焦点，智能体才是新一代人工智能的主心骨，环境与工具则构成其呼吸与肌肉。