梁文锋DeepSeek新论文!接棒何恺明和字节,又稳了稳AI的“地基”

AIGC动态3小时前发布 Si-Planet
44 0 0
梁文锋DeepSeek新论文!接棒何恺明和字节,又稳了稳AI的“地基”

 

文章摘要


【关 键 词】 人工智能深度学习残差连接架构创新工程优化

DeepSeek在2026年初发布了一篇关于mHC(流形约束超连接)的论文,这项研究对Transformer架构中最基础的残差连接(Residual Connection)进行了重要改进。残差连接由何恺明于2015年提出,十年来几乎未被改动,而mHC的提出标志着这一核心组件的首次重大升级。

mHC的诞生源于技术演进的接力。2015年,何恺明的ResNet通过残差连接解决了深度神经网络的梯度消失问题。2017年,Transformer将残差连接作为标配,奠定了现代大模型的基础。2024年,字节跳动提出Hyper-Connections(超连接),通过多流并行架构提升模型性能,但带来了训练不稳定的问题。DeepSeek的mHC正是为了解决Hyper-Connections的稳定性问题而设计。

Hyper-Connections的主要问题在于打破了残差连接的“恒等映射”属性。传统残差连接确保信号能量守恒,而Hyper-Connections引入的可学习权重矩阵可能导致信号爆炸、Loss尖峰和训练崩溃,尤其在超大规模模型(如270亿参数以上)中更为明显。

mHC的核心创新是将连接权重矩阵约束为双随机矩阵(Doubly Stochastic Matrix)。这种数学约束确保信号不会被无限放大,同时保留了模型的表达能力。具体实现上,DeepSeek采用Sinkhorn-Knopp算法进行迭代归一化,仅需3次迭代即可达到足够精度,且整个过程可微分,支持端到端训练。这一方案无需引入新超参数,既解决了稳定性问题,又保持了模型性能。实验结果显示,在7B规模的Dense模型训练中,mHC全程未出现Loss尖峰;在MoE模型上,收敛速度提升了约1.8倍。

mHC的落地展现了DeepSeek强大的工程能力。为了将理论方案高效实现,DeepSeek并未调用现成库,而是手写了CUDA内核代码,利用算子融合技术将复杂计算嵌入训练循环,并通过选择性重计算和多卡通信优化提升效率。这种将数学约束与工程实践紧密结合的能力,体现了前沿实验室的技术实力。

mHC可能是DeepSeek在架构创新上的第一步。据透露,DeepSeek研究员认为hyper-connections是2025年最值得关注的技术之一,未来可能进一步整合到下一代模型中,结合其他创新实现效率、性能和稳定性的全面提升。法国AI研究实验室Pleias的联合创始人评价称,mHC表面是架构论文,实则是“秀肌肉”的硬核工程成果,凸显了DeepSeek在算法与工程协同优化上的独特优势。

原文和模型


【原文链接】 阅读原文 [ 2132字 | 9分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...