清华刘知远团队论文:最小化结构改动,短文本到长文本丝滑升级 | ICLR 2026

AIGC动态11小时前发布 aitechtalk
54 0 0
清华刘知远团队论文:最小化结构改动,短文本到长文本丝滑升级 | ICLR 2026

 

文章摘要


【关 键 词】 大模型上下文长度稀疏注意力结构扰动推理效率

InfLLM-V2通过最小结构扰动实现大模型从短上下文到长上下文的平滑升级。随着大语言模型应用场景的复杂化,传统4k或8k序列长度已无法满足长文档理解、跨轮对话记忆等任务需求,而全注意力机制的平方级计算开销使得支持更长上下文面临巨大成本压力。清华大学刘知远团队提出的InfLLM-V2采用dense-sparse可切换注意力框架,在不改变原有dense attention参数结构的前提下,实现了长短文本的兼容训练与高效过渡

研究通过三个递进层面的实验验证了该方法的有效性。在32k长度的RULER基准测试中,InfLLM-V2(Sparse)表现与Full Attention几乎重合,而传统稀疏方法出现性能断崖;LongBench基准的多任务测试进一步显示,该方法不仅保持全注意力性能,还降低了注意力噪声。特别值得注意的是,InfLLM-V2在长链式推理任务中完整保留了”思维连续性”,其MATH-500等任务表现与全注意力机制持平,且切换回dense模式后仍能保持原有短序列任务能力。端到端效率测试显示,该方法在6k token设置下实现了2.1倍prefilling加速和2.3倍decoding加速。

技术实现上,研究团队严格遵循”最小结构扰动”原则:短序列预训练阶段完全采用标准Transformer架构;长上下文训练时仅切换attention mask形式,保持Key/Value投影参数和single-output结构不变。这种设计避免了NSA等方案因引入多路attention结构对模型表示的破坏。工程优化方面,通过head-group fusion和LSE Approximation等技术,将block selection计算时间降低20-30%,为实际加速效果奠定基础。

该方法对行业实践具有显著指导意义:现有模型可通过”热升级”方式获得长上下文能力,无需调整参数规模或重新预训练。研究同时确立了稀疏注意力发展的三个约束条件——保持结构一致性、兼容输出形式、优化底层计算实现。这种将训练范式、结构设计与CUDA实现统一考量的系统性思路,已成功应用于MiniCPM-4.1等实际模型的开发,为长上下文大语言模型研究提供了新的方法论范式。

原文和模型


【原文链接】 阅读原文 [ 3328字 | 14分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...