算力终结者来了!华人天团「降维打击」注意力瓶颈,AI狂飙进对数时代

AIGC动态17小时前发布 AIera
88 0 0
算力终结者来了!华人天团「降维打击」注意力瓶颈,AI狂飙进对数时代

 

文章摘要


【关 键 词】 注意力机制对数线性Fenwick树长序列处理高效算法

注意力机制的「平方枷锁」被突破,研究者提出对数线性注意力(Log-Linear Attention),通过Fenwick树分段和掩码矩阵实现对数级效率。这一创新由Mamba作者Tri Dao、华人AI专家Eric P. Xing等联合MIT、普林斯顿等机构完成,其核心在于重构掩码矩阵M的结构,使计算复杂度降至O(TlogT),内存消耗仅O(logT)。该方法无缝兼容线性注意力家族,实测中Mamba-2、DeltaNet等模型均获显著提速,长序列处理正式迈入log时代。

掩码矩阵的结构化改造是技术突破的关键。传统注意力机制因O(N²)复杂度饱受诟病,而线性注意力虽降至O(T)却损失了表达能力。研究团队发现,提升效率的核心在于掩码矩阵M是否具备可分结构。通过Fenwick树的分层划分策略,模型能以不同时间粒度处理历史信息:近期token获得精细建模,远期token则被压缩为更大区段。这种多尺度处理通过数据驱动的标量权重实现自适应,既保留关键细节又控制计算成本。

分块并行算法的创新实现将理论转化为实践。该方法将计算分为两个阶段:块内采用O(C²)标准计算,块间通过层级可分矩阵(SSS)实现O(TlogT)高效传递。团队使用Triton定制内核,在序列超8K时性能超越FlashAttention-2。实验显示,131K长序列训练仍保持可行,32K序列下对数线性Mamba-2吞吐量已超过Transformer。

在语言建模、常识推理等六大类基准测试中,对数线性变体展现出系统性优势。多查询关联回忆任务显示,标准DeltaNet在长序列下准确率骤降,而对数线性版本保持稳定。WikiText困惑度测试中,对数线性门控DeltaNet超越所有对比模型。特别在「大海捞针」测试中,改进幅度最高达89%,证明其对长程依赖的捕捉能力。现实场景的上下文检索任务也验证了该方法的泛化性,在SQuAD等数据集上平均提升5-8%。

该研究仍存在工程复杂性和参数优化等挑战。掩码矩阵的层次结构增加了反向传播的实现难度,且当前性能仍落后于最优Transformer配置。研究者指出,Fenwick树的归纳偏差可能并非所有任务的最优解,未来需探索更灵活的分段策略。两位华人一作Han Guo和Songlin Yang的学术背景凸显了该工作在算法-系统协同设计上的特色,为高效LLM训练提供了新的基础工具。

原文和模型


【原文链接】 阅读原文 [ 4625字 | 19分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...