华为放出「准万亿级MoE推理」大招,两大杀手级优化技术直接开源
文章摘要
【关 键 词】 大模型、MoE架构、推理效率、昇腾硬件、算子优化
2025年标志着大模型从单点工具向业务系统底层基础设施的转型,其中推理效率成为决定模型能否实际落地的关键因素。超大规模混合专家(MoE)模型面临计算、通信、访存等多维挑战,亟需系统性解决方案。华为推出的openPangu-Ultra-MoE-718B-V1.1模型及其配套技术栈,通过昇腾亲和加速技术将硬件算力利用率提升至86%,为行业提供了生产级部署的可行性路径。
推理效率的核心矛盾在于成本与性能的平衡。训练阶段关注模型能力扩展,而推理阶段需解决低延迟、高稳定性的运行需求。MoE模型在发挥芯片组网优势的同时,其复杂推理链路中的算子性能、通信掩盖、系统调度等环节均可能成为瓶颈。华为通过Omni Proxy智能调度系统实现全生命周期监控,创新性地采用APC感知调度、Tokenizer复用等六大技术,使系统吞吐量提升超过10%。该调度器突破传统框架在负载均衡、KV缓存匹配等方面的局限,构建起适应超大规模MoE推理的基础设施。
在算子层面,AMLA(Ascend MLA)技术通过算法重构实现”以加代乘”的突破。该技术将浮点乘法转化为整数加法,结合预加载流水线设计,使昇腾硬件FLOPS利用率达到86.8%,显著高于同类方案。这种底层创新不仅降低访存延迟,更通过双层流水线优化确保计算单元持续饱和,为注意力机制等核心运算提供近峰值性能。实测显示,AMLA在昇腾硬件上实现614 TFLOPS的算力输出,为推理效率树立新基准。
技术栈的协同优化形成完整推理体系。框架层的Omni-Infer兼容主流推理框架,加速套件覆盖服务扩展、专家放置等关键环节;调度层的Omni Proxy实现微秒级资源分配;算子层的AMLA突破硬件利用率天花板。这种系统级解决方案使准万亿参数MoE模型的单token推理成本趋于可控,为商业闭环创造条件。开源生态的构建进一步降低技术迁移门槛,推动行业从训练竞赛转向落地能力建设。
当前大模型发展呈现双重趋势:模型能力持续上探的同时,推理效率正成为产业化的决定性变量。华为的技术实践表明,通过硬件感知的全栈优化,超大规模MoE模型完全具备生产环境部署条件。随着行业价值评估标准从”能否训练”转向”能否持续运行”,这套涵盖框架、调度、算子的技术体系,为AI基础设施的下一阶段演进提供了可复用的方法论。
原文和模型
【原文链接】 阅读原文 [ 4643字 | 19分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




