标签:残差连接
租了8张H100,他成功复现了DeepSeek的mHC,结果比官方报告更炸裂
DeepSeek提出的mHC架构通过多流并行设计和双拟随机矩阵约束,解决了传统Transformer在大规模训练中的信号爆炸问题。传统残差连接采用单一信息流设计,而超连...
梁文锋DeepSeek新论文!接棒何恺明和字节,又稳了稳AI的“地基”
DeepSeek在2026年初发布了一篇关于mHC(流形约束超连接)的论文,这项研究对Transformer架构中最基础的残差连接(Residual Connection)进行了重要改进。残差...




