标签:推理加速
让搜索Agent不「傻等」:人大团队依托扩散模型实现「一心二用」,边等搜索结果边思考,加速15%性能不减
传统搜索Agent普遍采用ReAct框架,执行流程为严格串行的想→调工具→等结果→再想→再调工具→再等……,每轮“思考”与“调用工具”环节完全串行,等待搜索引擎返回结果...
创新Transformer!面壁基于稀疏-线性混合架构SALA训练9B模型,端侧跑通百万上下文
面壁智能发布了行业首个大规模训练的稀疏-线性注意力混合架构SALA及其文本模型MiniCPM-SALA,该模型通过创新架构设计显著提升了长文本处理能力和推理效率。传...
刚刚,微软全新一代自研AI芯片Maia 200问世
微软正式发布了专为AI推理设计的Maia 200芯片,这款基于台积电3纳米工艺的加速器标志着微软在自研AI硬件领域的重大突破。Maia 200配备216GB HBM3e内存和7TB/s...
大模型Infra新突破!腾讯混元开源LLM推理算子库,推理吞吐提升30%
腾讯混元AI Infra团队开源了生产级高性能LLM推理核心算子库HPC-Ops,该库通过底层架构创新和指令级优化,显著提升了大模型推理效率。在真实场景测试中,混元...
带宽战争前夜,“中国版Groq”浮出水面
英伟达通过200亿美元收购Groq核心技术,标志着AI行业竞争焦点从算力规模转向单位面积带宽的极致追求。这一战略举措不仅创下英伟达历史最大交易纪录,更凸显其...
仅需15%全量Attention!「RTPurbo」阿里Qwen3长文本推理5倍压缩方案来了
长序列处理已成为大模型应用中最昂贵的资源消耗点。当前主流Full Attention机制下,计算开销随输入长度呈平方级增长,导致长文本处理既昂贵又低效。针对这一...
LeCun预言成真!790年长视频,炼出最强开源「世界模型」
人工智能领域迎来重大突破,北京智源研究院发布多模态原生世界模型Emu3.5。这款340亿参数的模型基于790年长视频数据训练,采用自回归架构实现多模态理解与生...
五倍推理加速,激发自回归潜能,苹果新工作让LLM预测未来
近年来,语言模型的显著进展主要得益于大规模文本数据的可获得性以及自回归训练方法的有效性。自回归模型在训练阶段具有明显优势,但在推理阶段存在顺序执行...
DeepSeek上线国家超算平台!671B满血版,三大运营商接入,玄铁芯片适配
近期,DeepSeek技术生态呈现多维度扩展态势。国家超算互联网平台正式上线支持DeepSeek-R1模型,最高可运行671B参数的满血版本,标志着其算力基础设施的深度整...
如何通过KV稀疏实现对vLLM的1.5倍加速
在过去一年中,KV稀疏算法的研究取得了显著进展,但在实际应用中,如何将这些算法与现有的大型语言模型(LLM)框架如vLLM相融合,以提高推理性能,仍是一个挑...
1
2





