DeepMind：Transformer存在拓扑缺陷，思维链治标不治本

AIGC动态1小时前发布 almosthuman2014

36 0 0

文章摘要

当前大语言模型普遍采用思维链机制来提升推理能力，但这导致推理成本大幅上升。谷歌DeepMind的研究指出，Transformer架构本身存在不擅长追踪状态的结构性缺陷，而思维链仅仅是针对这一缺陷的临时补丁。Transformer依赖上下文窗口和注意力机制检索历史信息，但在处理不断更新的内部状态时，随着网络深度的消耗，模型无法继续可靠地追踪状态，从而导致前后矛盾等错误。思维链通过将深层隐藏状态转化为可见文字输出再重新读入，虽然缓解了状态追踪失效的问题，但占用了大量上下文窗口并推高了计算成本。

研究通过猜数字游戏和单词歧义测试等实例，证实了模型在状态追踪上的失效并非偶发幻觉，而是架构缺陷的必然结果。神经网络可解释性工具显示，模型在较深网络层完成的状态更新或语义消歧，无法被浅层网络有效访问，导致后续处理只能依赖粗浅的词频关联。这表明内部状态确实得到了更新，但更新结果埋藏过深，使得后续处理过程无法有效访问这些关键信息，从而引发逻辑断裂。

为解决这一底层问题，研究主张将重点从外显的思维链转向隐式激活动态，建议采用循环架构来替代或补充现有的纯前馈结构。沿序列方向的循环架构能够显式传递前一步的状态向量，结合现代注意力机制的优势，实现无限期的状态追踪，相关状态空间模型和线性注意力架构已展现出巨大潜力。下一代基础模型必须超越反复检索历史文本的现有策略，转而构建流动的、持续演化的现实表示，以实现真正稳定且连贯的长时认知。