标签:推理加速

这类芯片,大有可为?

大型语言模型的快速发展使人工智能硬件的主要瓶颈从计算能力转移至内存容量与数据传输。模拟内存计算通过在内存阵列中直接执行矩阵向量乘法,显著减少了与模...

Mythos阴影里谷歌悄悄发模型,速度暴涨4倍

谷歌近期发布了DiffusionGemma文本生成模型,该模型摒弃了传统的自回归逐Token生成方式,转而采用扩散模型架构。通过在包含256个Token的画布上从随机噪声出发...

阿里RTPurboV2:原生Transformer再次崛起,百步训练实现10倍稀疏注意

随着大模型应用中长序列需求的增加,传统全注意力机制因计算复杂度高而成为性能瓶颈。阿里团队推出了第二代注意力压缩技术,旨在彻底解决全注意力机制在超长...

超越 TurboQuant! OSCAR:面向真实 Serving 的 2bit KV Cache量化

长上下文模型在在线推理服务中面临KV Cache带来的显存容量和带宽压力。OSCAR方案旨在通过面向长上下文服务的近2-bit KV Cache量化技术,解决低比特压缩后模型...

AI协作重磅突破!斯坦福英伟达联手消除AI沟通内耗,推理速度暴涨2.4倍

当前多智能体协作系统普遍依赖自然语言文本进行信息交互,这种范式在传递过程中需经历内部思维与文字的双向转换,不仅消耗大量计算资源与时间,还会导致语义...

CVPR 2026 四篇论文透视:大厂如何靠「算法瘦身」对抗算力涨价?

面对算力封锁与训练成本飙升的挑战,人工智能领域的技术发展重心正从单纯堆叠硬件转向挖掘算法潜力。大厂不再比拼GPU数量,而是较量如何把GPU用得更好,算力...

让搜索Agent不「傻等」:人大团队依托扩散模型实现「一心二用」,边等搜索结果边思考,加速15%性能不减

传统搜索Agent普遍采用ReAct框架,执行流程为严格串行的想→调工具→等结果→再想→再调工具→再等……,每轮“思考”与“调用工具”环节完全串行,等待搜索引擎返回结果...

创新Transformer!面壁基于稀疏-线性混合架构SALA训练9B模型,端侧跑通百万上下文

面壁智能发布了行业首个大规模训练的稀疏-线性注意力混合架构SALA及其文本模型MiniCPM-SALA,该模型通过创新架构设计显著提升了长文本处理能力和推理效率。传...

刚刚,微软全新一代自研AI芯片Maia 200问世

微软正式发布了专为AI推理设计的Maia 200芯片,这款基于台积电3纳米工艺的加速器标志着微软在自研AI硬件领域的重大突破。Maia 200配备216GB HBM3e内存和7TB/s...

大模型Infra新突破!腾讯混元开源LLM推理算子库,推理吞吐提升30%

腾讯混元AI Infra团队开源了生产级高性能LLM推理核心算子库HPC-Ops,该库通过底层架构创新和指令级优化,显著提升了大模型推理效率。在真实场景测试中,混元...
1 2