文章摘要
【关 键 词】 人工智能、深度学习、残差连接、架构创新、工程优化
DeepSeek在2026年初发布了一篇关于mHC(流形约束超连接)的论文,这项研究对Transformer架构中最基础的残差连接(Residual Connection)进行了重要改进。残差连接由何恺明于2015年提出,十年来几乎未被改动,而mHC的提出标志着这一核心组件的首次重大升级。
mHC的诞生源于技术演进的接力。2015年,何恺明的ResNet通过残差连接解决了深度神经网络的梯度消失问题。2017年,Transformer将残差连接作为标配,奠定了现代大模型的基础。2024年,字节跳动提出Hyper-Connections(超连接),通过多流并行架构提升模型性能,但带来了训练不稳定的问题。DeepSeek的mHC正是为了解决Hyper-Connections的稳定性问题而设计。
Hyper-Connections的主要问题在于打破了残差连接的“恒等映射”属性。传统残差连接确保信号能量守恒,而Hyper-Connections引入的可学习权重矩阵可能导致信号爆炸、Loss尖峰和训练崩溃,尤其在超大规模模型(如270亿参数以上)中更为明显。
mHC的核心创新是将连接权重矩阵约束为双随机矩阵(Doubly Stochastic Matrix)。这种数学约束确保信号不会被无限放大,同时保留了模型的表达能力。具体实现上,DeepSeek采用Sinkhorn-Knopp算法进行迭代归一化,仅需3次迭代即可达到足够精度,且整个过程可微分,支持端到端训练。这一方案无需引入新超参数,既解决了稳定性问题,又保持了模型性能。实验结果显示,在7B规模的Dense模型训练中,mHC全程未出现Loss尖峰;在MoE模型上,收敛速度提升了约1.8倍。
mHC的落地展现了DeepSeek强大的工程能力。为了将理论方案高效实现,DeepSeek并未调用现成库,而是手写了CUDA内核代码,利用算子融合技术将复杂计算嵌入训练循环,并通过选择性重计算和多卡通信优化提升效率。这种将数学约束与工程实践紧密结合的能力,体现了前沿实验室的技术实力。
mHC可能是DeepSeek在架构创新上的第一步。据透露,DeepSeek研究员认为hyper-connections是2025年最值得关注的技术之一,未来可能进一步整合到下一代模型中,结合其他创新实现效率、性能和稳定性的全面提升。法国AI研究实验室Pleias的联合创始人评价称,mHC表面是架构论文,实则是“秀肌肉”的硬核工程成果,凸显了DeepSeek在算法与工程协同优化上的独特优势。
原文和模型
【原文链接】 阅读原文 [ 2132字 | 9分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




