注意力机制 | 学习AIGC

仅需15%全量Attention！「RTPurbo」阿里Qwen3长文本推理5倍压缩方案来了

长序列处理已成为大模型应用中最昂贵的资源消耗点。当前主流Full Attention机制下，计算开销随输入长度呈平方级增长，导致长文本处理既昂贵又低效。针对这一...

AIGC动态

1周前

华为新架构砍了Transformer大动脉！任意模型推理能力原地飙升

华为诺亚方舟实验室提出了一种名为Nexus的高阶注意力机制，旨在解决传统Transformer架构在复杂逻辑推理任务中的局限性。传统自注意力机制通过线性变换生成Que...

AIGC动态

4周前

韩松等提出FlashMoBA，比MoBA快7.4倍，序列扩到512K也不会溢出

MoBA（Mixture of Block Attention）是一种将混合专家原理应用于注意力机制的创新方法，通过让模型自主决定关注哪些位置，显著降低了长上下文处理的计算成本...

AIGC动态

1个月前

3A大作！阿里ROLL团队从基建->算法->机理，推动RL4LLM全栈协同优化

阿里巴巴ROLL团队联合多所高校推出的「3A」协同优化框架，为强化学习在大语言模型（RL4LLM）中的应用带来了高效、精细与可解释的新范式。该框架由Async架构、...

AI-Agent

2个月前

我MiniMax，用实习生处理数据，照样屠榜开源大模型

MiniMax M2开源大模型凭借其独特的技术路径和出色的实际表现成为社区焦点。该模型在香港大学AI-Trader模拟A股大赛中以10万本金20天盈利近3000元的成绩夺冠，...

AIGC动态

2个月前

长上下文快2.9倍，解码快6倍：Kimi 用线性注意力实现性能与效率双突破

月之暗面团队开发的Kimi Linear模型通过创新的混合线性注意力架构，在公平比较中全面超越传统全注意力机制，实现了推理速度与模型性能的双重突破。该模型的核...

AIGC动态

2个月前

MiniMax和Kimi为了“注意力”，隔空交手

MiniMax和月之暗面在大模型技术路线上展现出截然不同的选择，引发了行业对注意力机制效率与性能平衡的深入探讨。MiniMax在M2模型中回归Full Attention架构，...

AI-Agent

2个月前

成功率100%！中科院发现用善意迷惑AI，能让它作恶，AI也经受不住糖衣毒药的攻击

上海工程科技大学和中国科学院计算技术研究所的研究揭示了大型语言模型（LLM）安全防御机制中存在的一种名为防御阈值衰减（DTD）的现象。研究发现，随着模型...

AIGC动态

2个月前

高效大规模创新3D重建模型iLRM

AIGC领域聚焦大语言模型发展与应用落地，而在3D建模方面，基于前馈网络的方法受关注，但多数基于Transformer架构的模型处理多视图输入时存在可扩展性问题，计...

AIGC动态

4个月前

ICML 2025 Spotlight | 快手、南开联合提出模块化双工注意力机制，显著提升多模态大模型情感理解能力！

新一代人工智能发展的重要方向是“情智兼备”，这是迈向通用人工智能的关键一步。在人机交互场景中，具备情智的数字人与机器人需要精准解译多模态交互信息，深...

AIGC动态

6个月前

标签：注意力机制

仅需15%全量Attention！「RTPurbo」阿里Qwen3长文本推理5倍压缩方案来了

华为新架构砍了Transformer大动脉！任意模型推理能力原地飙升

韩松等提出FlashMoBA，比MoBA快7.4倍，序列扩到512K也不会溢出

3A大作！阿里ROLL团队从基建->算法->机理，推动RL4LLM全栈协同优化

我MiniMax，用实习生处理数据，照样屠榜开源大模型

长上下文快2.9倍，解码快6倍：Kimi 用线性注意力实现性能与效率双突破

MiniMax和Kimi为了“注意力”，隔空交手

成功率100%！中科院发现用善意迷惑AI，能让它作恶，AI也经受不住糖衣毒药的攻击

高效大规模创新3D重建模型iLRM

ICML 2025 Spotlight | 快手、南开联合提出模块化双工注意力机制，显著提升多模态大模型情感理解能力！

热门网址

标签：注意力机制

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址