DeepMind:Transformer存在拓扑缺陷,思维链治标不治本

DeepMind:Transformer存在拓扑缺陷,思维链治标不治本

 

文章摘要


【关 键 词】 状态追踪思维链循环架构架构缺陷大模型

当前大语言模型普遍采用思维链机制来提升推理能力,但这导致推理成本大幅上升。谷歌DeepMind的研究指出,Transformer架构本身存在不擅长追踪状态的结构性缺陷,而思维链仅仅是针对这一缺陷的临时补丁。Transformer依赖上下文窗口和注意力机制检索历史信息,但在处理不断更新的内部状态时,随着网络深度的消耗,模型无法继续可靠地追踪状态,从而导致前后矛盾等错误。思维链通过将深层隐藏状态转化为可见文字输出再重新读入,虽然缓解了状态追踪失效的问题,但占用了大量上下文窗口并推高了计算成本。

研究通过猜数字游戏和单词歧义测试等实例,证实了模型在状态追踪上的失效并非偶发幻觉,而是架构缺陷的必然结果。神经网络可解释性工具显示,模型在较深网络层完成的状态更新或语义消歧,无法被浅层网络有效访问,导致后续处理只能依赖粗浅的词频关联。这表明内部状态确实得到了更新,但更新结果埋藏过深,使得后续处理过程无法有效访问这些关键信息,从而引发逻辑断裂。

为解决这一底层问题,研究主张将重点从外显的思维链转向隐式激活动态,建议采用循环架构来替代或补充现有的纯前馈结构。沿序列方向的循环架构能够显式传递前一步的状态向量,结合现代注意力机制的优势,实现无限期的状态追踪,相关状态空间模型和线性注意力架构已展现出巨大潜力。下一代基础模型必须超越反复检索历史文本的现有策略,转而构建流动的、持续演化的现实表示,以实现真正稳定且连贯的长时认知。

原文和模型


【原文链接】 阅读原文 [ 2245字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 qwen3.7-max
【摘要评分】 ★★★★☆

© 版权声明
xunfeiagent

相关文章

trae

暂无评论

暂无评论...