大模型Infra新突破!腾讯混元开源LLM推理算子库,推理吞吐提升30%

AIGC动态6小时前发布 QbitAI
59 0 0
大模型Infra新突破!腾讯混元开源LLM推理算子库,推理吞吐提升30%

 

文章摘要


【关 键 词】 大模型算子库性能优化推理加速CUDA

腾讯混元AI Infra团队开源了生产级高性能LLM推理核心算子库HPC-Ops,该库通过底层架构创新和指令级优化,显著提升了大模型推理效率。在真实场景测试中,混元模型推理QPM提升30%,DeepSeek模型提升17%,核心算子性能最高达现有方案的2.22倍。该成果针对当前大模型推理领域的关键瓶颈,即主流算子库与国内常用推理硬件(如H20卡)适配不足的问题,提供了系统化解决方案。

现有算子库存在两大核心痛点:使用成本方面,复杂封装导致修改适配困难,阻碍了量化算法等创新技术的落地;硬件匹配方面,现有优化主要面向H800等训练卡,难以发挥推理卡的峰值性能。HPC-Ops采用CUDA和CuTe从零构建,通过三项关键技术突破:任务特性与硬件指令的精准对齐使访存带宽达硬件峰值的80%以上;创新的数据重排技术如Interleave布局优化FP8 Attention性能;计算逻辑与工程实现的解耦设计大幅降低开发门槛。

性能测试数据显示,该库在典型模型规格下全面超越现有方案。GroupGEMM在低batch场景较DeepGEMM提升1.88倍,且通过流水线技术保持量化场景性能稳定;FusedMoE模块较TensorRT-LLM最高提升1.49倍,支持动态序列长度处理;Decode阶段Attention性能提升达2.22倍,FP8精度下长序列处理优势显著。这些优化已通过腾讯生产环境验证,并兼容主流推理框架。

未来该库将沿三个方向持续演进:开发稀疏Attention突破长上下文内存限制,扩展4bit/8bit混合精度量化方案,以及优化多GPU协同计算通信流程。项目已在GitHub开源,团队呼吁开发者共同参与边缘场景优化,推动大模型推理技术边界拓展。该成果标志着大模型竞赛进入效率优先阶段,底层算子的精细化优化正成为性能突破的关键路径

原文和模型


【原文链接】 阅读原文 [ 2141字 | 9分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...