DeepSeek-V4蓄势待发!梁文锋署名论文或开启第二个DeepSeek时刻

AIGC动态2小时前发布 AIGCOPEN
58 0 0
DeepSeek-V4蓄势待发!梁文锋署名论文或开启第二个DeepSeek时刻

 

文章摘要


【关 键 词】 AI模型深度学习架构创新编程能力知识存储

DeepSeek与北京大学联合发布的最新研究论文,展示了下一代模型DeepSeek-V4的架构基础。该模型预计将于2024年2月发布,具备强大的编程能力,可能超越当前市场上的顶级模型如Claude和GPT系列。论文提出的Engram条件记忆机制,将大模型的记忆存储与逻辑推理在架构上分离,以更低的成本实现更强的性能,挑战了Transformer模型传统的知识存储方式。

Engram模块的设计灵感源自N-gram模型,但进行了现代化的深度学习改造。它构建了一个可学习的静态嵌入表,通过哈希索引直接获取词汇或短语的向量表示,几乎不消耗计算资源却能精准提供背景知识。这种机制改变了传统Transformer处理多Token实体时需要多层计算构建语义表示的方式,允许模型在极早层级获得完整语义嵌入,解放后续层级专注于复杂推理任务

研究团队在架构设计上进行了多项创新,包括分词器压缩技术,将有效词汇表大小压缩23%。Engram作为旁路插件策略性插入特定Transformer层,包含检索和融合两个核心阶段。上下文感知的门控机制确保检索内容与当前语境相符,使Engram成为能够动态调整的智能记忆体。这种设计不仅是一个静态数据库,更能通过轻量级深度卷积扩大感受野,确保局部模式与全局上下文的有机结合。

在稀疏分配问题上,研究发现将20%-25%的稀疏参数预算分配给Engram能获得最佳模型性能。这一黄金分割点在不同规模下表现出稳定性,揭示了语言建模的双重性:Engram负责记忆,MoE负责推理。研究还探索了无限内存机制,增加Engram嵌入槽位数量几乎不增加推理延迟,却使模型Loss呈现对数线性下降,为模型能力扩展提供了有效路径。

实验验证显示,在同等计算预算下,Engram-27B在知识密集型任务和一般性推理任务上均优于纯MoE模型。这一反直觉现象证明,将静态知识卸载给Engram能让主干网络更专注于高阶逻辑处理。机械可解释性分析表明,Engram模型在极早层级就解决了大量确定性预测任务,其浅层表示相当于MoE模型深层表示的语义丰富度,实现了层级加速效应。

Engram架构在长上下文处理上展现出巨大优势,注意力机制得以从局部关注中解脱,专注于全局信息整合。在大海捞针任务中,得分从84.2飙升至97.0,证明了外挂记忆对注意力带宽的有效利用。消融实验进一步验证了Engram模块的功能独立性:关闭Engram后,事实知识任务性能大幅下降,而阅读理解类任务保持稳定,表明Engram已成为存储模型参数化知识的主要容器

在系统工程层面,Engram的确定性设计允许嵌入表卸载到CPU内存,利用预取-重叠策略几乎掩盖数据传输延迟。即便挂载1000亿参数的Engram表,推理吞吐量下降也不到3%,打破了GPU显存对模型参数规模的限制。这一特性对边缘设备和云端推理服务具有革命性意义。

DeepSeek的这项研究不仅在算法层面提出了稀疏分配定律,更在工程层面提供了高效可扩展的解决方案。Engram通过解耦知识检索与逻辑推理,提升了模型在知识密集型任务的表现,同时促进了逻辑推理能力。这种创新可能预示着下一代大语言模型将发展为神经网络与智能检索引擎的有机结合体。

原文和模型


【原文链接】 阅读原文 [ 3640字 | 15分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...