估值 1200 亿后 Kimi 再扔王牌,新架构爆改 Transformer 老配件,比 DeepSeek 同款还省钱

AIGC动态4小时前发布 ai-front
72 0 0
估值 1200 亿后 Kimi 再扔王牌,新架构爆改 Transformer 老配件,比 DeepSeek 同款还省钱

 

文章摘要


【关 键 词】 residual注意力架构优化推理增强算力节约

深度学习领域长期依赖的残差连接机制,近期因Kimi与DeepSeek的创新工作引发广泛关注。

残差连接自2015年由何恺明提出后,成为Transformer等深层网络训练稳定性的核心保障,其本质是在信息传递路径中叠加原始输入以缓解梯度消失问题。

然而该机制存在三个固有缺陷:信息被动全量累加导致“稀释问题”,早期关键信息易被后续内容覆盖而无法回溯,以及深层网络中信号冗余加剧计算负担。

Kimi提出的“注意力残差”(Attention Residuals)通过引入动态权重机制,使每一层可依据任务需求对前序所有层的输出进行选择性加权融合,相当于为信息流配置智能筛选器——处理数学题时侧重逻辑模块输出,对话场景则强化语义连贯性模块响应。

该设计在保持训练稳定性的同时显著提升高阶能力,在研究生级考试、高等数学推理、代码生成及超长文本理解等任务上实现3–7.5个百分点的性能跃升。

为兼顾效率,Kimi进一步推出“分块注意力残差”(Block AttnRes),将层序列划分为若干组,组内维持传统残差累加,组间启用注意力机制择优聚合,大幅降低计算开销;配合“跨阶段缓存”与“两阶段计算策略”,训练额外成本控制在4%以内,推理延迟增加不足2%,且支持即插即用式模型升级。

实验证明,该方法在194M至528M参数规模模型上均优于传统残差,且随模型增大优势更明显;消融分析确认动态打分、softmax归一化、内容预整理及8组划分等设计缺一不可。

相较之下,DeepSeek的mHC方案采取并行多流架构,虽提升训练稳定性,但仅能接收混合后信号,难以精准回溯历史信息,在复杂推理任务中表现受限;其改造需重构整个网络结构,适配成本远高于Kimi的轻量替换方案。

测试数据显示,Kimi完整版AttnRes性能全面优于mHC,而分块版在效能相当前提下数据读写量仅为后者的1/6

这一系列进展暗示,当数据与算力红利趋缓,大模型竞争焦点正转向信息流的精细化管理能力。


原文和模型


【原文链接】 阅读原文 [ 2620字 | 11分钟 ]
【原文作者】 AI前线
【摘要模型】 qwen3-vl-plus-2025-12-19
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...