标签:稀疏注意力
清华刘知远团队论文:最小化结构改动,短文本到长文本丝滑升级 | ICLR 2026
InfLLM-V2通过最小结构扰动实现大模型从短上下文到长上下文的平滑升级。随着大语言模型应用场景的复杂化,传统4k或8k序列长度已无法满足长文档理解、跨轮对话...
美团龙猫LongCat技术升级!新注意力机制解码速度快10倍,还能处理1M超长文本
美团龙猫LongCat系列发布全新稀疏注意力机制LoZA(LongCat ZigZag Attention),重点解决长文本任务的理解和算力难题。该技术通过改造原有的全注意力MLA机制...
DeepSeek发布V3.2-Exp:引入DSA、价格腰斩,为V4、R2铺路
DeepSeek在国庆前夕发布了实验性模型DeepSeek-V3.2-Exp,核心创新是引入DeepSeek Sparse Attention(DSA)架构,首次实现细粒度稀疏注意力机制。该技术通过让...
月之暗面Kimi的技术一点都不落后。
月之暗面团队于2023年5月启动MoBA框架研发,旨在提升大语言模型处理长文本的效率与兼容性。该框架结合稀疏注意力与分布式训练技术,支持上下文长度扩展至10M...
阿里发布Qwen2.5-Turbo,支持100万Tokens上下文!
阿里巴巴推出了Qwen2.5-Turbo版本,该版本将上下文扩展至100万tokens,大幅提升了模型的理解与生成能力。这一扩展使得Qwen2.5-Turbo能够处理10部长篇小说、15...
阿里发布Qwen2.5-Turbo,上下文长度突破100万
阿里巴巴通义大模型团队近日发布了Qwen2.5-Turbo,这是其最新语言模型Qwen2.5的升级版。新模型在多个方面进行了显著提升,尤其是在处理超长上下文的能力上,...



