标签:注意力机制

算力终结者来了!华人天团「降维打击」注意力瓶颈,AI狂飙进对数时代

注意力机制的「平方枷锁」被突破,研究者提出对数线性注意力(Log-Linear Attention),通过Fenwick树分段和掩码矩阵实现对数级效率。这一创新由Mamba作者Tri...

谷歌Transformer过时了?清华姚班校友等三连击,爆改注意力!

谷歌研究团队提出了一种突破性的AI架构设计框架Miras,通过重新定义注意力机制和记忆管理方式,显著提升了序列模型的性能。该框架的核心创新在于将传统遗忘机...

被Transformer光芒掩盖的论文,Meta科学家回顾十年前创新之作

2015年发布的论文《End-To-End Memory Networks》虽然在当时被Transformer的光芒所掩盖,但它包含了当前大型语言模型的许多关键要素。这篇论文首次完全用注意...

DeepSeek的MLA,任意大模型都能轻松迁移了

DeepSeek-R1作为AI产业颠覆式创新的代表,其训练与推理成本仅为同等性能大模型的数十分之一,核心在于多头潜在注意力网络(MLA)。MLA通过对键值缓存进行低秩...

标点符号成大模型训练神器!KV缓存狂减一半,可处理400万Tokens长序列,来自华为港大等 | 开源

华为、港大等机构的研究团队提出了一种基于自然语言分隔符的新型大语言模型SepLLM,通过将文本语义信息压缩至标点符号中,显著提升了训练推理效率。该方法发...

YOLO已经悄悄来到v12,首个以Attention为核心的YOLO框架问世

YOLOv12通过引入创新的注意力机制和结构优化,显著提升了实时目标检测的性能与效率。该模型由纽约州立大学布法罗分校和中国科学院大学的研究团队联合开发,旨...

梁文锋亲自挂名,DeepSeek 最新论文丢出注意力新机制,推理速度直线提升 11 倍

DeepSeek研究团队近期发布了一种名为NSA的新型注意力机制,其核心设计包含动态分层稀疏策略、粗粒度token压缩与细粒度token选择三大技术要素。该机制通过优化...

发论文亲自上?创业十多年,DeepSeek梁文锋的“技术男”属性从没改变

DeepSeek团队近日发布新论文,提出名为Native Sparse Attention(NSA)的新型注意力机制。该机制通过动态分层稀疏策略,结合粗粒度标记压缩与细粒度标记选择...

杨植麟和梁文锋,论文撞车了

在马斯克发布Grok3的同一天,DeepSeek与月之暗面分别发布论文,针对Transformer架构的核心注意力机制提出创新方案。DeepSeek的原生稀疏注意力(NSA)通过语义...

Transformer继任者「Titans」来了,上下文记忆瓶颈被打破

谷歌推出了一种新的AI架构——Titans,旨在解决现有注意力机制无法扩展到长上下文的问题。Titans结合了注意力机制和元上下文记忆,能够处理长达200万tokens的上...
1 2 3