估值 1200 亿后 Kimi 再扔王牌，新架构爆改 Transformer 老配件，比 DeepSeek 同款还省钱

72 0 0

文章摘要

深度学习领域长期依赖的残差连接机制，近期因Kimi与DeepSeek的创新工作引发广泛关注。

残差连接自2015年由何恺明提出后，成为Transformer等深层网络训练稳定性的核心保障，其本质是在信息传递路径中叠加原始输入以缓解梯度消失问题。

然而该机制存在三个固有缺陷：信息被动全量累加导致“稀释问题”，早期关键信息易被后续内容覆盖而无法回溯，以及深层网络中信号冗余加剧计算负担。

Kimi提出的“注意力残差”（Attention Residuals）通过引入动态权重机制，使每一层可依据任务需求对前序所有层的输出进行选择性加权融合，相当于为信息流配置智能筛选器——处理数学题时侧重逻辑模块输出，对话场景则强化语义连贯性模块响应。

该设计在保持训练稳定性的同时显著提升高阶能力，在研究生级考试、高等数学推理、代码生成及超长文本理解等任务上实现3–7.5个百分点的性能跃升。

为兼顾效率，Kimi进一步推出“分块注意力残差”（Block AttnRes），将层序列划分为若干组，组内维持传统残差累加，组间启用注意力机制择优聚合，大幅降低计算开销；配合“跨阶段缓存”与“两阶段计算策略”，训练额外成本控制在4%以内，推理延迟增加不足2%，且支持即插即用式模型升级。

实验证明，该方法在194M至528M参数规模模型上均优于传统残差，且随模型增大优势更明显；消融分析确认动态打分、softmax归一化、内容预整理及8组划分等设计缺一不可。

相较之下，DeepSeek的mHC方案采取并行多流架构，虽提升训练稳定性，但仅能接收混合后信号，难以精准回溯历史信息，在复杂推理任务中表现受限；其改造需重构整个网络结构，适配成本远高于Kimi的轻量替换方案。

测试数据显示，Kimi完整版AttnRes性能全面优于mHC，而分块版在效能相当前提下数据读写量仅为后者的1/6。

这一系列进展暗示，当数据与算力红利趋缓，大模型竞争焦点正转向信息流的精细化管理能力。

原文和模型

【原文链接】 阅读原文 [ 2620字 | 11分钟 ]
【原文作者】 AI前线
【摘要模型】 qwen3-vl-plus-2025-12-19
【摘要评分】 ★☆☆☆☆

阿里云百炼

大模型服务平台是阿里云基于通义大模型等多种大模型的一站式大模型开发平台。

# AIGC动态 # 大模型 # residual # 推理增强 # 架构优化 # 注意力 # 算力节约

文章版权归作者所有，未经允许请勿转载。

融资 1200亿后 Kimi 再扔王牌，新架构爆改 Transformer 老配件，比 DeepSeek 同款还省钱

AI前线

基于闪电注意力机制，创新高效开源大模型

AIGC开放社区

1,302

Qwen“半成品”推理模型刷下AIME满分，俘获大批国外开发者！实测碾压GPT-5 Thinking、还能写侦探小说

AI前线

486

FlashAttention-4正式发布：算法流水线大改，矩阵乘法级速度

机器之心

188

独家丨vivo胡柏山晋升为公司总裁，向CEO沈炜汇报

雷峰网

212

「注意力实际上是对数的」？七年前的Transformer还有新发现，Karpathy点赞

机器之心

1,833

暂无评论

暂无评论...

估值 1200 亿后 Kimi 再扔王牌，新架构爆改 Transformer 老配件，比 DeepSeek 同款还省钱

文章摘要

原文和模型

港大赵恒爽团队论文：让扩散模型既拿高分又不「作弊」丨CVPR 2026

5B参数+4060Ti，10秒出图，全流程开源可复现！补齐统一多模态生成编辑的开源版图，让高质量图像生成真正变得更轻量、更普及

相关文章

暂无评论

热门网址

热门文章

估值 1200 亿后 Kimi 再扔王牌，新架构爆改 Transformer 老配件，比 DeepSeek 同款还省钱

文章摘要

原文和模型

港大赵恒爽团队论文：让扩散模型既拿高分又不「作弊」丨CVPR 2026

5B参数+4060Ti，10秒出图，全流程开源可复现！补齐统一多模态生成编辑的开源版图，让高质量图像生成真正变得更轻量、更普及

相关文章

暂无评论

Trac-AI IDE

星辰Agent

讯飞文书-办公助手

热门网址

热门文章