文章摘要
【关 键 词】 residual、注意力、架构优化、推理增强、算力节约
残差连接作为深度学习模型中的基础设计,自2015年ResNet提出以来长期被视作不可动摇的“主干道”,其核心作用是保障梯度有效反传、防止信息在深层网络中丢失。
然而该机制存在三大固有缺陷:信息传递为无差别累加,无法选择性关注关键内容;早期重要信息易被后续输入覆盖而永久丢失;随着网络深度增加,信息堆叠导致语义稀释,影响模型对长序列与复杂逻辑的处理能力. Kimi团队提出“注意力残差”(Attention Residuals),将注意力机制引入残差路径,使每一层可动态加权接收前序所有层的原始输出,而非简单叠加。
具体而言,各层通过可学习的权重α对历史层输出进行重要性打分,再加权融合后生成新表示,从而实现“按需收听”。
该方法显著提升了模型在研究生级专业考试、高等数学推理、代码生成及超长文本理解等高难度任务上的表现,提升幅度达3–7.5个百分点。
为平衡性能与效率,Kimi进一步提出“分块注意力残差”(Block AttnRes),将层划分为若干小组,组内沿用传统残差累加,组间则采用注意力机制进行选择性整合,大幅降低计算开销。
实验表明,在同等硬件条件下,分块方案可达到传统残差连接1.25倍算力才能实现的效果,训练端额外开销低于4%,推理延迟增幅不足2%。
消融实验验证了关键设计必要性:重要性分数必须随输入动态变化;打分需经softmax归一化以确保决策明确;内容需先整理再评分,避免信息干扰;最优分组数约为8。
相较之下,DeepSeek提出的mHC方案侧重扩展信息通路,采用多并行流结构缓解拥堵,虽提升训练稳定性,但无法直接访问原始层输出,导致在需精准回溯的复杂任务上表现受限。
Kimi的AttnRes具备即插即用特性,无需改动原有模型结构与训练流程,老模型可直接升级;而mHC需重构整个架构,适配成本极高。
性能对比显示,Full AttnRes全面优于mHC,Block AttnRes性能相当但数据读写量仅为后者的1/6。
这一进展暗示,当数据与算力红利趋缓,大模型竞争焦点正转向信息流动的精细化管理能力。
原文和模型
【原文链接】 阅读原文 [ 2620字 | 11分钟 ]
【原文作者】 AI前线
【摘要模型】 qwen3-vl-plus-2025-12-19
【摘要评分】 ★☆☆☆☆



