标签:注意力
估值 1200 亿后 Kimi 再扔王牌,新架构爆改 Transformer 老配件,比 DeepSeek 同款还省钱
深度学习领域长期依赖的残差连接机制,近期因Kimi与DeepSeek的创新工作引发广泛关注。残差连接自2015年由何恺明提出后,成为Transformer等深层网络训练稳定性...
融资 1200亿后 Kimi 再扔王牌,新架构爆改 Transformer 老配件,比 DeepSeek 同款还省钱
残差连接作为深度学习模型中的基础设计,自2015年ResNet提出以来长期被视作不可动摇的“主干道”,其核心作用是保障梯度有效反传、防止信息在深层网络中丢失。...
FlashAttention-4正式发布:算法流水线大改,矩阵乘法级速度
经过一年开发,深度学习底层优化技术FlashAttention推出大版本更新FlashAttention-4,专门适配新一代Blackwell架构GPU。在Blackwell GPU上,注意力机制的执行...
9B端侧开源模型跑通百万上下文,面壁全新稀疏-线性混合注意力架构SALA立功了!
Claude Opus 4.6的发布标志着大模型进入百万级上下文时代,该模型展现出跨文档法律分析和多轮Agent规划等能力。面壁智能随后推出创新的线性与稀疏混合注意力...
基于闪电注意力机制,创新高效开源大模型
MiniMax公司开源了基于闪电注意力机制的专家混合模型MiniMax-M1,该模型在架构、创新模块和训练框架上均实现了显著突破。MiniMax-M1总参数为4560亿,其中459...
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
研究团队提出两种专为推理“量身定制”的注意力机制——Grouped-Tied Attention(GTA)和Grouped Latent Attention(GLA),旨在优化大语言模型的推理效率和硬件...
「注意力实际上是对数的」?七年前的Transformer还有新发现,Karpathy点赞
在当前的AI社区中,注意力机制的计算复杂度问题再次引发了广泛讨论。作者提出了一种全新的视角,认为Transformer中的注意力机制在计算复杂度上应被视为对数级...



