
文章摘要
华为昇腾在超大规模MoE模型推理部署领域取得了显著突破,其推理性能全面超越了英伟达的Hopper架构。这一成就主要归功于华为昇腾的“以数学补物理”策略,通过数学理论、工具、算法和建模等方式,弥补硬件和工艺的局限性,最大化发挥芯片和系统能力。华为昇腾不仅发布了技术报告,还计划在一个月内开源相关代码,进一步推动技术共享。
在具体技术实现上,华为昇腾针对DeepSeek V3/R1模型进行了深度优化。该模型包含257个专家,每个专家“体重”2.5G,给硬件带来了内存压力、通信开销和架构创新等挑战。华为团队从算子、模型和框架三方面入手,开发了一整套面向集群的大规模专家并行解决方案。在硬件部署上,华为团队根据不同硬件配置——CloudMatrix 384超节点和Atlas 800I A2推理服务器,针对性地采取了不同的部署优化策略。例如,CloudMatrix 384超节点在50ms时延约束下单卡Decode吞吐突破1920 Tokens/s,而Atlas 800I A2推理服务器在100ms时延约束下单卡吞吐达到808 Tokens/s。
在推理框架优化方面,华为团队设计了API Server横向扩展方案,显著降低用户请求延迟并提高整体服务吞吐量。针对MoE模型中的负载不均问题,团队基于动态调整专家部署与缩小通信域、热专家冗余部署、实时调度与动态监控机制等核心技术,降低显存占用的同时实现动态负载均衡。在投机推理技术的工程化应用中,华为团队提出FusionSpec投机推理引擎,优化多Token预测(MTP)场景下的推理性能。
在通信优化方面,华为昇腾推出了FlashComm通信方案,通过集合通信逻辑重构与算子位置编排,实现低比特、低维度数据通信,降低通信时延并消除冗余计算。团队还提出层内并行转换方案,针对Prefill阶段的MLA层,通过张量并行(TP)与数据并行(DP)的灵活转换,消除节点内卡间求和操作,并利用网络低维特性与量化技术压缩通信数据量。此外,团队还深度挖掘了并发机制,包括计算通信并发、通信通信并发和通信和权重预并发,最大化硬件利用率。
在算子优化方面,华为团队通过以数学补物理,发展了一系列的优化技术。针对MLA算子中间变量膨胀与计算量激增的挑战,团队开展硬件亲和性优化,提出AMLA算法,通过二进制编码与存内计算,将乘性计算转换为加性等价形式,直接在全局内存完成输出更新,减少数据搬运耗时。MoE算子方面的优化则包括通算融合算子、SMTurbo-CPP技术和细粒度分级流水算法,提升集群环境下的带宽利用率。
华为昇腾在Decode性能测试中表现出色,Atlas 800I A2在序列长度为2K输入+2K输出和1K输入+2K输出两种情况下,TPOT(Decode平均每Token时延)不超过100ms。在Prefill上的测试中,单batch输入序列长度为2K/1K,通过拼batch的方式拼成一共16K序列,端到端耗时为631ms,卡均吞吐为1622 Tokens/s。
华为昇腾的技术创新不仅体现在硬件和算法的优化上,还体现在其开源策略上。通过技术报告和代码的开源,华为昇腾为行业提供了宝贵的实践经验和参考,推动了超大规模MoE模型推理部署技术的发展。
原文和模型
【原文链接】 阅读原文 [ 2715字 | 11分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★