文章摘要
【关 键 词】 深度学习、Transformer、条件记忆、N-gram、稀疏模型
DeepSeek团队最新研究通过引入条件记忆机制,为Transformer架构补足了原生缺乏的知识查找功能。该研究提出名为Engram的创新模块,其核心思想是将传统N-gram方法的高效查找能力与现代Transformer相结合。实验结果显示,27B参数规模的模型在配备条件记忆后,不仅知识密集型任务表现显著提升,推理能力也意外获得增强。
研究团队发现语言建模包含两种本质不同的任务:需要深度动态计算的组合推理和静态知识检索。传统Transformer缺乏专用知识查找机制,迫使模型耗费宝贵的网络深度来完成本可通过查表解决的简单识别任务。以”戴安娜王妃”为例,模型需要6层注意力才能完成实体识别,这种低效性严重浪费了计算资源。
Engram模块的设计采用经典N-gram思路,通过哈希查找实现O(1)时间复杂度的局部依赖捕获。为解决传统N-gram的存储爆炸和多义性问题,团队采用tokenizer压缩和多重哈希映射技术,显著提升了存储效率。上下文感知门控机制的引入则有效处理了哈希冲突,当检索内容与上下文不匹配时自动降低权重。
关于稀疏参数分配的U型曲线研究揭示了MoE与记忆模块的最优配比。实验表明,将约20-25%的稀疏参数预算分配给Engram记忆时,模型性能达到峰值。这一发现说明记忆与计算具有互补性,过度依赖任一方都会导致性能下降:MoE主导时静态模式处理效率低下,Engram主导时动态推理能力受损。
在27B参数规模的验证中,Engram模型展现出超预期的全面提升。除知识任务(MMLU提升3分)外,推理任务(BBH提升5分)和代码数学(HumanEval提升3分)进步显著。分析表明,Engram让模型早期层摆脱了特征组合的负担,相当于”加深”了网络有效深度。在长上下文场景下,Engram释放的注意力容量使RULER测试集的Multi-Query NIAH指标从84.2跃升至97.0。
工程实现上,Engram的确定性寻址特性支持存储与计算解耦。研究团队成功将1000亿参数的词表卸载到CPU内存,推理延迟仅增加3%以内。通过PCIe异步预取和多级缓存设计,高频访问模式得到优先处理。这种硬件感知设计原则为超大规模模型的实用化提供了新思路。
研究结论指出,条件记忆将成为下一代稀疏模型的关键建模原语。随着Engram-40B展示的持续性能提升,DeepSeek团队认为记忆容量尚未饱和,后续扩展空间广阔。这项技术突破预计将对即将发布的下一代稀疏模型产生重要影响。
原文和模型
【原文链接】 阅读原文 [ 2434字 | 10分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★



