推翻二十年组网逻辑，智谱落地ZCube，让同样的GPU多干15%的活

AIGC动态2个月前发布 almosthuman2014

515 0 0

文章摘要

在人工智能大模型迈向超大规模集群的进程中，单纯堆砌GPU算力的边际效益正逐渐递减，网络通信瓶颈日益成为制约整体性能的关键变量。传统数据中心广泛采用的Clos与ROFT架构基于统计均匀流量假设设计，难以适应大模型推理阶段Prefill与Decode分离部署所带来的高度动态不对称流量。此类流量特征极易引发结构性拥塞，导致局部链路负载过高、频繁触发反压机制并严重放大尾延迟。针对这一底层瓶颈，智谱AI在GLM-5.1线上生产集群中完成了新一代组网架构ZCube的规模化部署。该架构打破传统层级堆叠模式，采用全网扁平化设计与单轨多轨混合接入策略，将网络直径压缩至两跳，并确保任意GPU节点间仅存唯一最优路径，从而在拓扑规划层面彻底消除可避免的拥塞根源。

在保持GPU配置与业务代码完全不变的前提下，架构升级使集群推理吞吐量提升百分之十五，首Token响应尾延迟骤降逾四成，网络硬件采购成本同步削减三分之一。该成果验证了脱离硬件堆叠、纯粹依靠拓扑重构实现算力释放的可行性。与侧重微秒级故障绕行的协议层方案不同，新架构侧重于在数据流转前通过数学化拓扑规划规避热点。当前AI基础设施的发展重心正由算力规模扩张转向系统级效率优化，架构层的无拥塞设计与协议层的高可靠机制呈现出明确的互补演进路径。网络架构创新的投入产出比正在重塑算力基建的经济模型，底层拓扑的精细化设计将成为突破超大规模集群通信瓶颈的核心驱动力。随着推理集群向更大规模演进，网络复杂度呈指数级攀升，底层组网方案的升级将直接决定算力资源的实际利用率。这一趋势不仅将改变数据中心网络设备的采购结构，降低对高端核心交换机的依赖，也将推动整个AI算力供应链向高性价比与开放标准方向持续迁移。