文章摘要
【关 键 词】 网络瓶颈、InfiniBand、ROCE调优、国产替代、无损通信
大规模AI训练集群正从万卡向十万卡规模演进,网络性能已取代算力成为制约训练效率的核心瓶颈。
在该规模下,通信时间占整体训练时长比例常超30%,且随规模扩大持续攀升,导致“算力红利”被显著稀释。
传统以太网兼容方案RoCE虽因成本与部署便利性曾广泛采用,但在万卡以上场景暴露出严重局限:其依赖优先级流控(PFC)机制存在反应滞后、易引发“PFC风暴”,造成频繁训练中断;拥塞控制需持续手动调整“水线”参数,运维门槛极高,中小用户难以承担。
相比之下,原生RDMA架构InfiniBand(IB)凭借基于信用的精细化流控机制,实现真正无损传输,无需额外拥塞控制策略;其集中式管理可避免死锁风险,路由收敛快;故障恢复能力达毫秒级,远优于RoCE的秒级响应,显著降低因链路抖动导致的算力浪费。
经济账层面,RoCE的隐性运维成本(人力、闲置、排障)在万卡级已趋近甚至超过IB硬件溢价,叠加IB单子网扩展能力提升至11万卡以上,带来组网简化与光模块成本下降优势。
技术代差亦体现于延迟特性:IB采用VCT交换实现边收边转,端到端时延可控制在1微秒内、转发时延低至260纳秒,而RoCE受制于存储-转发机制,动态延迟波动大,难以满足小消息高频通信场景需求。
市场趋势显示,AI后端网络中IB长期占据头部份额,因其从设计之初即面向零丢包严苛场景优化。
国内格局正发生关键转变——中科曙光推出全栈自研的scaleFabric国产原生RDMA系统,支持400G速率、单子网超11万卡扩展,已在国家超算互联网郑州节点完成3万卡真实负载验证,累计运行作业超10万项;这标志着用户首次可在高性能与自主可控间兼得,打破以往“性能vs安全”的二元取舍逻辑。
中国工程院院士邬贺铨指出,智算集群对网络提出“超低延迟、超高带宽、全程无损”要求,RDMA已成为算力大动脉;随着新基建推动超大规模智算部署成为常态,网络路线选择将不再仅由成本或供应链驱动,而转向决定集群“能否真正跑起来”的核心效能标准。
原文和模型
【原文链接】 阅读原文 [ 2680字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 qwen3-vl-plus-2025-12-19
【摘要评分】 ★☆☆☆☆



