模型也需要「睡觉」?CMU新论文让LLM在梦中「巩固记忆」

模型也需要「睡觉」?CMU新论文让LLM在梦中「巩固记忆」

 

文章摘要


【关 键 词】 大模型长上下文睡眠机制记忆巩固深度推理

大语言模型在处理长上下文任务时面临显存占用高、推理速度慢以及细节记忆丢失等问题。为解决这一困境,研究人员受动物睡眠期间记忆巩固过程的启发,提出了一种名为“睡眠”的记忆巩固机制。该机制旨在通过将上下文窗口中的短期记忆转化为持久权重,提升模型在复杂长程任务中的深度推理能力。

大模型的运行过程被划分为快速响应的“醒着”阶段与离线处理的“睡眠”阶段。在“醒着”阶段,模型如同常规架构一样快速接收输入并生成预测。当上下文窗口即将填满时,模型进入“睡眠”状态,暂停接收外部输入,转而执行多次离线递归前向传播。通过这一过程,模型利用学习到的局部规则更新状态空间模型模块中的快速权重,将近期上下文的关键细节内化,随后清空上下文缓存并带着更新后的权重继续运行。

在包含细胞自动机、多跳图检索及长上下文数学推理等任务的测试中,增加模型的“睡眠”循环次数能够显著提升其在需要深层推理的复杂样本上的表现。特别是在长上下文数学推理基准测试中,随着运算步骤和题目难度的增加,“睡眠”机制带来的准确率提升尤为明显,证明了将额外计算转移至巩固阶段在增强模型上下文组织能力方面的有效性。

尽管“睡眠”机制在提升推理性能方面效果显著,但其代价同样不容忽视。在巩固阶段执行多次递归计算会导致训练过程中的前向和反向传播层数加深,从而使训练成本随“睡眠”时长的增加而线性增长,并可能引发训练不稳定的问题。目前该研究主要处于方法论探索阶段,其评估基于受控合成任务和中等规模预训练模型,尚未在超大规模商用模型及真实长程智能体系统中进行充分验证。

原文和模型


【原文链接】 阅读原文 [ 2251字 | 10分钟 ]
【原文作者】 机器之心
【摘要模型】 qwen3.7-max
【摘要评分】 ★★★★★

© 版权声明
xunfeiagent

相关文章

trae

暂无评论

暂无评论...