融资 1200亿后 Kimi 再扔王牌，新架构爆改 Transformer 老配件，比 DeepSeek 同款还省钱

49 0 0

文章摘要

残差连接作为深度学习模型中的基础设计，自2015年ResNet提出以来长期被视作不可动摇的“主干道”，其核心作用是保障梯度有效反传、防止信息在深层网络中丢失。

然而该机制存在三大固有缺陷：信息传递为无差别累加，无法选择性关注关键内容；早期重要信息易被后续输入覆盖而永久丢失；随着网络深度增加，信息堆叠导致语义稀释，影响模型对长序列与复杂逻辑的处理能力. Kimi团队提出“注意力残差”（Attention Residuals），将注意力机制引入残差路径，使每一层可动态加权接收前序所有层的原始输出，而非简单叠加。

具体而言，各层通过可学习的权重α对历史层输出进行重要性打分，再加权融合后生成新表示，从而实现“按需收听”。

该方法显著提升了模型在研究生级专业考试、高等数学推理、代码生成及超长文本理解等高难度任务上的表现，提升幅度达3–7.5个百分点。

为平衡性能与效率，Kimi进一步提出“分块注意力残差”（Block AttnRes），将层划分为若干小组，组内沿用传统残差累加，组间则采用注意力机制进行选择性整合，大幅降低计算开销。

实验表明，在同等硬件条件下，分块方案可达到传统残差连接1.25倍算力才能实现的效果，训练端额外开销低于4%，推理延迟增幅不足2%。

消融实验验证了关键设计必要性：重要性分数必须随输入动态变化；打分需经softmax归一化以确保决策明确；内容需先整理再评分，避免信息干扰；最优分组数约为8。

相较之下，DeepSeek提出的mHC方案侧重扩展信息通路，采用多并行流结构缓解拥堵，虽提升训练稳定性，但无法直接访问原始层输出，导致在需精准回溯的复杂任务上表现受限。

Kimi的AttnRes具备即插即用特性，无需改动原有模型结构与训练流程，老模型可直接升级；而mHC需重构整个架构，适配成本极高。

性能对比显示，Full AttnRes全面优于mHC，Block AttnRes性能相当但数据读写量仅为后者的1/6。

这一进展暗示，当数据与算力红利趋缓，大模型竞争焦点正转向信息流动的精细化管理能力。