标签:注意力机制

3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化

阿里巴巴ROLL团队联合多所高校推出的「3A」协同优化框架,为强化学习在大语言模型(RL4LLM)中的应用带来了高效、精细与可解释的新范式。该框架由Async架构、...

我MiniMax,用实习生处理数据,照样屠榜开源大模型

MiniMax M2开源大模型凭借其独特的技术路径和出色的实际表现成为社区焦点。该模型在香港大学AI-Trader模拟A股大赛中以10万本金20天盈利近3000元的成绩夺冠,...

长上下文快2.9倍,解码快6倍:Kimi 用线性注意力实现性能与效率双突破

月之暗面团队开发的Kimi Linear模型通过创新的混合线性注意力架构,在公平比较中全面超越传统全注意力机制,实现了推理速度与模型性能的双重突破。该模型的核...

MiniMax和Kimi为了“注意力”,隔空交手

MiniMax和月之暗面在大模型技术路线上展现出截然不同的选择,引发了行业对注意力机制效率与性能平衡的深入探讨。MiniMax在M2模型中回归Full Attention架构,...

成功率100%!中科院发现用善意迷惑AI,能让它作恶,AI也经受不住糖衣毒药的攻击

上海工程科技大学和中国科学院计算技术研究所的研究揭示了大型语言模型(LLM)安全防御机制中存在的一种名为防御阈值衰减(DTD)的现象。研究发现,随着模型...

高效大规模创新3D重建模型iLRM

AIGC领域聚焦大语言模型发展与应用落地,而在3D建模方面,基于前馈网络的方法受关注,但多数基于Transformer架构的模型处理多视图输入时存在可扩展性问题,计...

ICML 2025 Spotlight | 快手、南开联合提出模块化双工注意力机制,显著提升多模态大模型情感理解能力!

新一代人工智能发展的重要方向是“情智兼备”,这是迈向通用人工智能的关键一步。在人机交互场景中,具备情智的数字人与机器人需要精准解译多模态交互信息,深...

开源多模态大模型EarthMind,观测地球统一框架

地球观测数据在自然灾害监测和城市发展规划评估中发挥着关键作用,但如何高效理解和分析这些复杂数据一直是科学界的难题。现有的多模态模型虽然在通用图像理...

Cache Me If You Can:陈丹琦团队如何「抓住」关键缓存,解放LLM内存?

普林斯顿大学陈丹琦团队提出统一框架解决长上下文语言模型中的KV缓存内存瓶颈问题。随着'长思维链'等技术的兴起,模型需要处理数万token的输入,导致基于Tran...

算力终结者来了!华人天团「降维打击」注意力瓶颈,AI狂飙进对数时代

注意力机制的「平方枷锁」被突破,研究者提出对数线性注意力(Log-Linear Attention),通过Fenwick树分段和掩码矩阵实现对数级效率。这一创新由Mamba作者Tri...
1 2 3 4