文章摘要
【关 键 词】 大模型、深度推理、睡眠机制、长上下文、语言模型
卡内基梅隆大学和马里兰大学的研究团队提出了一种旨在提升大语言模型处理长上下文和复杂逻辑能力的新机制。研究表明,大语言模型在面对长上下文和深度推理任务时,持续运行会导致性能衰减,而引入类似人类睡眠的离线处理机制能够有效解决这一问题。
当前基于注意力机制的模型在处理长上下文时面临算力成本激增和缓存占用的挑战。尽管采用混合架构将历史信息压缩进快速权重以缓解内存压力,但模型在推理步骤增多时仍会出现性能失效。当前的瓶颈并非信息存储能力不足,而是深度推理能力跟不上。单次前向传播无法充分内化复杂逻辑,这与人类大脑需要在睡眠中离线回放并巩固短期记忆的机制高度相似。
受人类大脑运作启发,研究团队设计了模型的睡眠机制。当上下文窗口接近满载时,模型会暂停接收新的输入,进入纯离线状态。在该状态下,模型针对已积累的上下文执行多轮递归前向传播,逐步更新模块内的快速权重,完成信息的深度压缩与消化。处理完成后,模型清空缓存并带着更新后的权重恢复推理。额外的计算开销集中在睡眠阶段,苏醒后的正常推理流程保持不变,睡眠时长即为信息迭代处理的轮次。
研究团队在元胞自动机、多跳图检索和无限数学推理等精准控制推理深度与记忆负载的任务上进行了测试。测试结果证实,合理增加睡眠迭代轮次能够显著提升模型在深度推理类任务上的整体表现。对于简单的任务,模型无需额外处理即可完成,而面对需要多步推导的复杂难题,充分的离线信息梳理是理清逻辑链条、提升推理准确率的关键。这一发现为优化大模型的长文本处理与复杂推理能力提供了全新思路。
原文和模型
【原文链接】 阅读原文 [ 1191字 | 5分钟 ]
【原文作者】 量子位
【摘要模型】 qwen3.7-max
【摘要评分】 ★★☆☆☆



