MoE推理「王炸」组合:昇腾×盘古让推理性能狂飙6-8倍

MoE推理「王炸」组合:昇腾×盘古让推理性能狂飙6-8倍

 

文章摘要


【关 键 词】 人工智能模型优化并行计算硬件协同推理效率

华为团队推出的Pangu Pro MoE 72B模型在昇腾平台上实现了显著的推理性能提升,通过系统级软硬协同优化,推理性能提升6~8倍。该模型采用混合专家(MoE)架构,结合动态稀疏计算优势,成为大模型推理提效的关键路径。在昇腾300I Duo上单卡吞吐可达321 tokens/s,在昇腾800I A2上更可飙升至1528 tokens/s,全面释放硬件潜力。

分层混合并行(H2P)策略是性能提升的核心创新之一。该策略根据模型结构和硬件互联拓扑特性,为不同模块设计最优并行方案。Attention模块采用DP2+TP4并行方案,Expert模块采用TP2+EP4策略,共享专家则以TP8全芯并行。通过Reduce-Scatter替代AllReduce、优化AllGather插入位置等技巧,H2P策略使Decode吞吐性能相比纯TP方案提升33.1%。

TopoComm优化方案攻克了通信瓶颈,从静态开销和传输耗时两个维度进行深度优化。SlimRing算法合并相邻通信步的同步操作,同步次数降低35%;NHD算法通过拓扑亲和的分级通信提高链路有效带宽21%;混合量化通信策略实现通信数据压缩25%,AllGather通信耗时降低39%。

DuoStream算子级多流融合方案实现了计算与通信的细粒度并发调度。针对Expert模块通信占比高的问题,构建GMMRS与AGMM两大融合策略,有效克服通信与计算之间的瓶颈,实现关键通信路径的流水掩盖,显著提升推理效率

融合算子优化是另一项重要突破。MulAttention算子针对Attention计算中的KV缓存搬运问题,通过KV大包连续搬运、预取流水机制等优化,实现加速4.5倍。SwiftGMM算子通过智能分块缓存、动态切换计算模式等策略,实现GMM计算加速2.1倍,解码阶段整网推理时延降低48.7%。

推理算法创新进一步提升了系统效率。PreMoE专家动态剪枝算法通过度量专家重要性和动态加载相关专家,实现推理吞吐提升10%+。TrimR反思压缩算法通过监测大模型思考过程,在异常时及时终止,使推理步数降低14%。SpecReason反思投机算法利用小模型生成token序列并由大模型验证,推理吞吐提升30%。

昇腾平台在两种配置下均展现出卓越性能。800I A2平台在小并发场景下权重搬运量仅16B,大并发场景下单卡吞吐达1148 tokens/s;300I Duo平台在小并发场景下延迟低至50ms,大并发场景下单卡吞吐达201 tokens/s。这些成果为通用大模型的规模部署和高效落地提供了坚实支撑。

原文和模型


【原文链接】 阅读原文 [ 3337字 | 14分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...