让AI学习效率飙升50倍的秘密：在线策略蒸馏

43 0 0

文章摘要

Thinking Machines Lab的最新研究《On-Policy Distillation》提出了一种颠覆性的AI训练方法，旨在通过实时指导优化模型的学习过程。传统训练方式分为监督微调（SFT）和人类反馈强化学习（RLHF）两个独立阶段，但二者存在内在矛盾：SFT要求模型模仿既有数据，RLHF则鼓励探索新答案，导致模型在保守与冒进间摇摆。该团队由OpenAI前CTO Mira Murati领衔，核心成员包括RLHF技术先驱，其研究聚焦于“如何让AI更高效学习”这一根本问题。

传统蒸馏训练依赖教师模型提供完美答案供学生模仿，而新方法“政策内蒸馏”让学生模型在自主生成内容时获得实时反馈。这种”边行动边学习”的机制，将反馈粒度细化到每个生成标记（token），如同写作教师逐句批改而非仅给总分。研究团队将此称为“用微镜头监督AI思考过程”，通过密集监督（dense supervision）显著提升学习效率。实验显示，该方法在AIME’24数学基准测试中超越传统RLHF模型，同时降低算力需求并增强训练稳定性。

这项研究标志着AI训练范式的哲学转向——从依赖海量数据模仿，转向引导模型反思自身行为轨迹。传统方法侧重统计规律的学习，而新方法培育的是“自我改进型智能体”，使AI能在实践中持续优化决策路径。这种转变的价值不在于增加算力，而在于重构学习机制本身，为实现真正具备反思能力的智能系统奠定基础。当AI开始理解”为何这样决策”而非仅复制结果时，可能预示着机器智能从”语言模仿”到”思维构建”的第二次觉醒。