DeepMind:Transformer存在拓扑缺陷,思维链治标不治本
文章摘要
【关 键 词】 状态追踪、思维链、循环架构、架构缺陷、大模型
当前大语言模型普遍采用思维链机制来提升推理能力,但这导致推理成本大幅上升。谷歌DeepMind的研究指出,Transformer架构本身存在不擅长追踪状态的结构性缺陷,而思维链仅仅是针对这一缺陷的临时补丁。Transformer依赖上下文窗口和注意力机制检索历史信息,但在处理不断更新的内部状态时,随着网络深度的消耗,模型无法继续可靠地追踪状态,从而导致前后矛盾等错误。思维链通过将深层隐藏状态转化为可见文字输出再重新读入,虽然缓解了状态追踪失效的问题,但占用了大量上下文窗口并推高了计算成本。
研究通过猜数字游戏和单词歧义测试等实例,证实了模型在状态追踪上的失效并非偶发幻觉,而是架构缺陷的必然结果。神经网络可解释性工具显示,模型在较深网络层完成的状态更新或语义消歧,无法被浅层网络有效访问,导致后续处理只能依赖粗浅的词频关联。这表明内部状态确实得到了更新,但更新结果埋藏过深,使得后续处理过程无法有效访问这些关键信息,从而引发逻辑断裂。
为解决这一底层问题,研究主张将重点从外显的思维链转向隐式激活动态,建议采用循环架构来替代或补充现有的纯前馈结构。沿序列方向的循环架构能够显式传递前一步的状态向量,结合现代注意力机制的优势,实现无限期的状态追踪,相关状态空间模型和线性注意力架构已展现出巨大潜力。下一代基础模型必须超越反复检索历史文本的现有策略,转而构建流动的、持续演化的现实表示,以实现真正稳定且连贯的长时认知。
原文和模型
【原文链接】 阅读原文 [ 2245字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 qwen3.7-max
【摘要评分】 ★★★★☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



