梁文锋DeepSeek新论文！接棒何恺明和字节，又稳了稳AI的“地基”

316 0 0

文章摘要

DeepSeek在2026年初发布了一篇关于mHC（流形约束超连接）的论文，这项研究对Transformer架构中最基础的残差连接（Residual Connection）进行了重要改进。残差连接由何恺明于2015年提出，十年来几乎未被改动，而mHC的提出标志着这一核心组件的首次重大升级。

mHC的诞生源于技术演进的接力。2015年，何恺明的ResNet通过残差连接解决了深度神经网络的梯度消失问题。2017年，Transformer将残差连接作为标配，奠定了现代大模型的基础。2024年，字节跳动提出Hyper-Connections（超连接），通过多流并行架构提升模型性能，但带来了训练不稳定的问题。DeepSeek的mHC正是为了解决Hyper-Connections的稳定性问题而设计。

Hyper-Connections的主要问题在于打破了残差连接的“恒等映射”属性。传统残差连接确保信号能量守恒，而Hyper-Connections引入的可学习权重矩阵可能导致信号爆炸、Loss尖峰和训练崩溃，尤其在超大规模模型（如270亿参数以上）中更为明显。

mHC的核心创新是将连接权重矩阵约束为双随机矩阵（Doubly Stochastic Matrix）。这种数学约束确保信号不会被无限放大，同时保留了模型的表达能力。具体实现上，DeepSeek采用Sinkhorn-Knopp算法进行迭代归一化，仅需3次迭代即可达到足够精度，且整个过程可微分，支持端到端训练。这一方案无需引入新超参数，既解决了稳定性问题，又保持了模型性能。实验结果显示，在7B规模的Dense模型训练中，mHC全程未出现Loss尖峰；在MoE模型上，收敛速度提升了约1.8倍。

mHC的落地展现了DeepSeek强大的工程能力。为了将理论方案高效实现，DeepSeek并未调用现成库，而是手写了CUDA内核代码，利用算子融合技术将复杂计算嵌入训练循环，并通过选择性重计算和多卡通信优化提升效率。这种将数学约束与工程实践紧密结合的能力，体现了前沿实验室的技术实力。

mHC可能是DeepSeek在架构创新上的第一步。据透露，DeepSeek研究员认为hyper-connections是2025年最值得关注的技术之一，未来可能进一步整合到下一代模型中，结合其他创新实现效率、性能和稳定性的全面提升。法国AI研究实验室Pleias的联合创始人评价称，mHC表面是架构论文，实则是“秀肌肉”的硬核工程成果，凸显了DeepSeek在算法与工程协同优化上的独特优势。