创新Transformer!面壁基于稀疏-线性混合架构SALA训练9B模型,端侧跑通百万上下文

AIGC动态2小时前发布 aitechtalk
59 0 0
创新Transformer!面壁基于稀疏-线性混合架构SALA训练9B模型,端侧跑通百万上下文

 

文章摘要


【关 键 词】 大模型注意力机制推理加速长文本处理混合架构

面壁智能发布了行业首个大规模训练的稀疏-线性注意力混合架构SALA及其文本模型MiniCPM-SALA,该模型通过创新架构设计显著提升了长文本处理能力和推理效率。传统Transformer模型的全注意力机制存在计算复杂度高和显存占用大的问题,而MiniCPM-SALA采用75%线性注意力与25%稀疏注意力的混合架构,既降低了计算开销,又克服了纯线性架构在长程信息召回上的精度损失。在256K词元序列长度下,其推理速度达到同尺寸全注意力模型的3.5倍,并支持端侧GPU实现百万级词元上下文推理

模型采用HyPE混合位置编码技术,协调短上下文与长上下文的性能表现。测试结果显示,MiniCPM-SALA在保持知识问答、数学推理等通用能力与全注意力模型相当的同时,在长文本基准测试中展现出明显优势。其长度泛化能力尤为突出,无需额外技术即可支持2048K词元的上下文长度。在显存利用方面,当Qwen3-8B在512K词元时出现显存溢出,MiniCPM-SALA仍能稳定处理1024K词元的超长文本。

技术实现上,模型通过HALO算法将预训练Transformer转换为混合架构,大幅降低了训练成本。稀疏注意力层采用InfLLM-v2精准捕捉局部信息,线性注意力层使用Lightning Attention实现全局高效计算。混合位置编码策略对线性层保留RoPE,稀疏层采用NoPE,有效避免了长距离信息召回时的位置编码衰减问题。训练过程分为架构转换、持续训练和多阶段衰减训练,逐步扩展上下文窗口至520K词元。

效率测试表明,在消费级GPU上MiniCPM-SALA可实现百万词元级别的推理,突破了传统模型在端侧设备的显存限制。面壁智能还发起了SOAR稀疏算子加速大赛,旨在进一步优化底层计算性能。该架构的推出为大模型在汽车、手机等端侧设备的长文本应用开辟了新可能,标志着注意力机制优化进入混合架构的新阶段。

原文和模型


【原文链接】 阅读原文 [ 4997字 | 20分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...