标签:注意力机制
创新Transformer!面壁基于稀疏-线性混合架构SALA训练9B模型,端侧跑通百万上下文
面壁智能发布了行业首个大规模训练的稀疏-线性注意力混合架构SALA及其文本模型MiniCPM-SALA,该模型通过创新架构设计显著提升了长文本处理能力和推理效率。传...
重复一下提示词,Gemini准确率竟从21%飙升至97%!
Google Research团队的最新研究发现,通过简单重复输入提示词,可以显著提升主流大语言模型在非推理任务上的表现。这一策略在不增加计算延迟的前提下,使Gemi...
仅需15%全量Attention!「RTPurbo」阿里Qwen3长文本推理5倍压缩方案来了
长序列处理已成为大模型应用中最昂贵的资源消耗点。当前主流Full Attention机制下,计算开销随输入长度呈平方级增长,导致长文本处理既昂贵又低效。针对这一...
华为新架构砍了Transformer大动脉!任意模型推理能力原地飙升
华为诺亚方舟实验室提出了一种名为Nexus的高阶注意力机制,旨在解决传统Transformer架构在复杂逻辑推理任务中的局限性。传统自注意力机制通过线性变换生成Que...
韩松等提出FlashMoBA,比MoBA快7.4倍,序列扩到512K也不会溢出
MoBA(Mixture of Block Attention)是一种将混合专家原理应用于注意力机制的创新方法,通过让模型自主决定关注哪些位置,显著降低了长上下文处理的计算成本...
3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化
阿里巴巴ROLL团队联合多所高校推出的「3A」协同优化框架,为强化学习在大语言模型(RL4LLM)中的应用带来了高效、精细与可解释的新范式。该框架由Async架构、...
我MiniMax,用实习生处理数据,照样屠榜开源大模型
MiniMax M2开源大模型凭借其独特的技术路径和出色的实际表现成为社区焦点。该模型在香港大学AI-Trader模拟A股大赛中以10万本金20天盈利近3000元的成绩夺冠,...
长上下文快2.9倍,解码快6倍:Kimi 用线性注意力实现性能与效率双突破
月之暗面团队开发的Kimi Linear模型通过创新的混合线性注意力架构,在公平比较中全面超越传统全注意力机制,实现了推理速度与模型性能的双重突破。该模型的核...
MiniMax和Kimi为了“注意力”,隔空交手
MiniMax和月之暗面在大模型技术路线上展现出截然不同的选择,引发了行业对注意力机制效率与性能平衡的深入探讨。MiniMax在M2模型中回归Full Attention架构,...
成功率100%!中科院发现用善意迷惑AI,能让它作恶,AI也经受不住糖衣毒药的攻击
上海工程科技大学和中国科学院计算技术研究所的研究揭示了大型语言模型(LLM)安全防御机制中存在的一种名为防御阈值衰减(DTD)的现象。研究发现,随着模型...




