AI真能学会心算?隐式思维链首次得到理论证明,Stuart Russell参与
文章摘要
【关 键 词】 隐式思维、思维链、推理成本、数学证明、模型训练
当前AI推理模型在处理复杂任务时依赖显式思维链,逐个生成中间思考标记,导致推理延迟高且计算成本昂贵。为解决这一结构性问题,研究人员提出了隐式思维链技术,旨在让模型将中间推理步骤内化到隐藏状态中,在不输出任何中间步骤的情况下保留强大的推理能力。来自加州大学伯克利分校和普林斯顿大学的研究团队在此基础上迈出了关键一步,不仅提出了新的训练方法,还首次给出了严格的数学证明。
先前的隐式思维链训练方法存在训练阶段随推理链长度线性增长的问题,且缺乏理论上的有效性保证。新研究洞察到思维链具有树状结构,并据此提出了对数级隐式思维链方法,通过一次性隐藏树的整层节点,将训练阶段大幅缩减至对数级别。 这一设计使训练过程与Transformer模型的内部层级结构完美对齐,每一层专门负责吸收思维链树的一个层级。
该研究最具里程碑意义的贡献是首次为隐式思维链提供了严格的收敛保证和数学证明。 定理表明,在对数级训练课程下,模型只需多项式数量的样本,就能以极高概率直接从输入预测正确结果。为克服多层网络中的表示坍缩和误差传播挑战,研究引入了门控连接以精准集中梯度信号,并采用注意力权重整数量化来锁定早期训练结果。
实验结果在经典的奇偶校验任务中验证了理论预测。四层模型经过四个阶段的训练后,在所有中间思维链位置被屏蔽的情况下,依然达到了百分之百的准确率。注意力权重的可视化进一步证实,模型成功将思维链的每一层信息刻入对应的网络层中。这项工作填补了隐式推理领域的理论空白,确立了其在数学意义上的合法性,为未来实现低延迟与低成本的无感推理指明了方向,尽管距离真实大语言模型的工程落地仍需解决阶段划分等实际挑战。
原文和模型
【原文链接】 阅读原文 [ 2716字 | 11分钟 ]
【原文作者】 机器之心
【摘要模型】 qwen3.7-max
【摘要评分】 ★★★★★



