标签:推理加速

刚刚,微软全新一代自研AI芯片Maia 200问世

微软正式发布了专为AI推理设计的Maia 200芯片,这款基于台积电3纳米工艺的加速器标志着微软在自研AI硬件领域的重大突破。Maia 200配备216GB HBM3e内存和7TB/s...

大模型Infra新突破!腾讯混元开源LLM推理算子库,推理吞吐提升30%

腾讯混元AI Infra团队开源了生产级高性能LLM推理核心算子库HPC-Ops,该库通过底层架构创新和指令级优化,显著提升了大模型推理效率。在真实场景测试中,混元...

带宽战争前夜,“中国版Groq”浮出水面

英伟达通过200亿美元收购Groq核心技术,标志着AI行业竞争焦点从算力规模转向单位面积带宽的极致追求。这一战略举措不仅创下英伟达历史最大交易纪录,更凸显其...

仅需15%全量Attention!「RTPurbo」阿里Qwen3长文本推理5倍压缩方案来了

长序列处理已成为大模型应用中最昂贵的资源消耗点。当前主流Full Attention机制下,计算开销随输入长度呈平方级增长,导致长文本处理既昂贵又低效。针对这一...

LeCun预言成真!790年长视频,炼出最强开源「世界模型」

人工智能领域迎来重大突破,北京智源研究院发布多模态原生世界模型Emu3.5。这款340亿参数的模型基于790年长视频数据训练,采用自回归架构实现多模态理解与生...

五倍推理加速,激发自回归潜能,苹果新工作让LLM预测未来

近年来,语言模型的显著进展主要得益于大规模文本数据的可获得性以及自回归训练方法的有效性。自回归模型在训练阶段具有明显优势,但在推理阶段存在顺序执行...

DeepSeek上线国家超算平台!671B满血版,三大运营商接入,玄铁芯片适配

近期,DeepSeek技术生态呈现多维度扩展态势。国家超算互联网平台正式上线支持DeepSeek-R1模型,最高可运行671B参数的满血版本,标志着其算力基础设施的深度整...

如何通过KV稀疏实现对vLLM的1.5倍加速

在过去一年中,KV稀疏算法的研究取得了显著进展,但在实际应用中,如何将这些算法与现有的大型语言模型(LLM)框架如vLLM相融合,以提高推理性能,仍是一个挑...

Kimi 背后的长文本大模型推理实践:以 KVCache 为中心的分离式推理架构

在AICon全球人工智能开发与应用大会上,月之暗面高级研发工程师唐飞虎分享了Kimi智能助手背后的推理加速方案,以及该方案在设计时所需要考虑的指标和在真实生...

大模型最快推理芯片一夜易主:每秒500tokens干翻GPU!谷歌TPU人马打造,喊话奥特曼:你们也太慢了

这篇文章介绍了初创公司Groq在大模型生成速度上的突破。Groq由谷歌TPU团队的原班人马创立,推出了基于自研芯片的推理加速方案,其速度比传统云平台快18倍,成...