9B端侧开源模型跑通百万上下文,面壁全新稀疏-线性混合注意力架构SALA立功了!

AI-Agent2小时前发布 QbitAI
58 0 0
9B端侧开源模型跑通百万上下文,面壁全新稀疏-线性混合注意力架构SALA立功了!

 

文章摘要


【关 键 词】 大模型上下文注意力端侧开源

Claude Opus 4.6的发布标志着大模型进入百万级上下文时代,该模型展现出跨文档法律分析和多轮Agent规划等能力。面壁智能随后推出创新的线性与稀疏混合注意力架构SALA,通过结合75%线性注意力和25%稀疏注意力,并引入混合位置编码HyPE,在保持性能的同时显著提升长文本处理效率。MiniCPM-SALA模型首次在消费级5090显卡上实现百万字长文本处理,为端侧部署提供可能。

传统Transformer的全注意力机制存在O(N²)计算复杂度和显存占用问题。现有解决方案如线性注意力、稀疏注意力和状态空间模型各有利弊,而SALA架构通过线性机制承载大规模上下文,用稀疏机制补足关键位置精确建模,在256K序列上实现2倍速度提升,512K至1M长度时仍能稳定运行。该架构采用Transformer-to-Hybrid构建方法,包含参数转换、隐状态对齐等步骤,确保模型迁移的高效性。

面壁智能联合多方发起2026稀疏算子加速大奖赛(SOAR),旨在推动混合架构在消费级GPU上的性能优化,总奖池超过70万元。这一举措与其端侧智能战略相呼应,致力于解决Agent部署中的上下文处理瓶颈。行业趋势显示,上下文能力正取代参数量成为Agent可用性的关键指标,各厂商纷纷优化注意力机制。

面壁的布局体现其从模型底层到端侧生态的整体思路:通过架构创新降低部署门槛,使长上下文能力从云端延伸至手机、汽车等终端开源模型、举办比赛和建设开发者社区等举措,共同推动百万上下文时代个人智能体的发展。技术报告和模型已在GitHub、Hugging Face等平台公开,为行业提供重要参考。

原文和模型


【原文链接】 阅读原文 [ 2920字 | 12分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...