全球AI算力大战变天！十万卡算力集群爆表，国产IB真香？

66 0 0

文章摘要

【关键词】 网络瓶颈、InfiniBand、ROCE调优、国产替代、无损通信

大规模AI训练集群正从万卡向十万卡规模演进，网络性能已取代算力成为制约训练效率的核心瓶颈。

在该规模下，通信时间占整体训练时长比例常超30%，且随规模扩大持续攀升，导致“算力红利”被显著稀释。

传统以太网兼容方案RoCE虽因成本与部署便利性曾广泛采用，但在万卡以上场景暴露出严重局限：其依赖优先级流控（PFC）机制存在反应滞后、易引发“PFC风暴”，造成频繁训练中断；拥塞控制需持续手动调整“水线”参数，运维门槛极高，中小用户难以承担。

相比之下，原生RDMA架构InfiniBand（IB）凭借基于信用的精细化流控机制，实现真正无损传输，无需额外拥塞控制策略；其集中式管理可避免死锁风险，路由收敛快；故障恢复能力达毫秒级，远优于RoCE的秒级响应，显著降低因链路抖动导致的算力浪费。

经济账层面，RoCE的隐性运维成本（人力、闲置、排障）在万卡级已趋近甚至超过IB硬件溢价，叠加IB单子网扩展能力提升至11万卡以上，带来组网简化与光模块成本下降优势。

技术代差亦体现于延迟特性：IB采用VCT交换实现边收边转,端到端时延可控制在1微秒内、转发时延低至260纳秒，而RoCE受制于存储-转发机制，动态延迟波动大，难以满足小消息高频通信场景需求。

市场趋势显示，AI后端网络中IB长期占据头部份额，因其从设计之初即面向零丢包严苛场景优化。

国内格局正发生关键转变——中科曙光推出全栈自研的scaleFabric国产原生RDMA系统，支持400G速率、单子网超11万卡扩展，已在国家超算互联网郑州节点完成3万卡真实负载验证，累计运行作业超10万项；这标志着用户首次可在高性能与自主可控间兼得，打破以往“性能vs安全”的二元取舍逻辑。

中国工程院院士邬贺铨指出，智算集群对网络提出“超低延迟、超高带宽、全程无损”要求，RDMA已成为算力大动脉；随着新基建推动超大规模智算部署成为常态，网络路线选择将不再仅由成本或供应链驱动，而转向决定集群“能否真正跑起来”的核心效能标准。

原文和模型

【原文链接】 阅读原文 [ 2680字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 qwen3-vl-plus-2025-12-19
【摘要评分】 ★☆☆☆☆

阿里云百炼

大模型服务平台是阿里云基于通义大模型等多种大模型的一站式大模型开发平台。

# AIGC动态 # InfiniBand # ROCE调优 # 国产替代 # 无损通信 # 网络瓶颈

文章版权归作者所有，未经允许请勿转载。

国内模拟芯片并购潮来临，下一个模拟巨头即将诞生？

admin

4,038

499上门装龙虾的人，开始赚299卸载龙虾的钱了

量子位

云汉芯城上市，电子元器件分销新标杆，让长尾需求变规模生意

admin

650

国产算力有哪些方向？

admin

3,050

AI芯片2025：巨头血拼，权力鼎革

钛媒体AGI

371

一位芯片投资人的十年复盘：谁是中国的英伟达｜AI光年

admin

2,895

暂无评论

暂无评论...

全球AI算力大战变天！十万卡算力集群爆表，国产IB真香？

文章摘要

原文和模型

成立4个月，融资43亿，又一机器人独角兽诞生

没有更多了...

相关文章

暂无评论

热门网址

热门文章

全球AI算力大战变天！十万卡算力集群爆表，国产IB真香？

文章摘要

原文和模型

成立4个月，融资43亿，又一机器人独角兽诞生

没有更多了...

相关文章

暂无评论

Trac-AI IDE

星辰Agent

讯飞文书-办公助手

热门网址

热门文章