DeepSeek悄悄更新：Mega MoE、FP4 Indexer来了

AIGC动态2个月前发布 almosthuman2014

337 0 0

文章摘要

深度求索团队近期对 DeepGEMM 代码库进行了更新，此次动作并未涉及模型本身的迭代，而是聚焦于基础设施层面的重构。更新中引入了一项名为 Mega MoE 的新技术，旨在解决传统混合专家模型计算流程支离破碎的问题。以往的处理方式类似多工位流水线，令牌分发、线性变换、激活函数及结果合并等步骤需分别启动内核，导致计算与通信之间存在频繁等待。Mega MoE 通过将分散的计算步骤融合为一个 mega-kernel，实现了数据通信与计算的同时发生，显著提升了 GPU 利用率。

该技术不仅仅是合并步骤，更关键的是让张量核心计算与 NVLink 数据传输并行运行，避免了多卡大规模场景下的频繁停顿。这种优化类似于将接力搬砖转变为连续运转的传送带，尤其在大规模混合专家模型场景下效果明显。深度求索并未止步于此，还在尝试逼近算力节省的边界，例如采用 FP8 乘以 FP4 的组合精度，并在多头查询注意力逻辑上应用 FP4 索引器。配合通用矩阵乘法重构及即时编译加速，这些措施意在将人工智能模型打磨得更加强劲。

官方描述显示，DeepGEMM 已成为统一的高性能张量核心内核库，融合了多种关键计算原语及具备通信重叠的融合混合专家技术。所有内核通过轻量级即时编译模块在运行时编译，无需在安装过程中进行 cuda 编译。这是一次基础设施层的重构尝试，旨在把混合专家模型从理论美好但工程折腾的架构，推向可大规模高效率运行的方向。目前该项目仍处于开发中，性能数据尚未公布，表明此类优化需在不同规模及拓扑下反复调试。此外，外界解读认为此次更新可能暗示训练硬件仍包含英伟达最新顶级加速卡，而非此前传言的国产训练卡。这一系列动作标志着深度求索正往极致效率的方向狂奔，为大模型后续发展奠定基础。