国产芯片错过「组团反杀」英伟达机会,或因死磕自研互联协议
文章摘要
【关 键 词】 超节点互联、协议碎片、生态割裂、开放标准、国产破局
当前AI算力基础设施正面临超节点互联协议生态严重碎片化的关键瓶颈。全球已形成多条技术路线并行格局:英伟达凭借NVLink构建封闭全栈体系,在高端训练领域占据主导;华为依托灵衢超节点架构实现国内智算中心规模化部署;UALink、ETH-X、SUE及OISA等开放联盟则致力于打造多厂商兼容的统一协议生态,试图打破英伟达垄断。这一分化导致设备互操作性受限,客户一旦选中某条路线便陷入高迁移成本困境。
资深专家指出,英伟达新一代DGX SuperPOD规模上限为576颗Rubin GPU的核心原因在于其多层异构互联架构——GPU与CPU间采用NVLink或PCIe,GPU与GPU间依赖NVLink,而跨服务器互联又需借助InfiniBand或以太网,这种多层次通信机制直接推高集群维护成本并削弱网络弹性。业内普遍认为,当前超节点仍处极早期阶段,其出现本质是云计算从通算向智算转型的结果,而互联协议正是突破“通信墙”的关键所在。
巨头如谷歌和英伟达采取封闭策略并非偶然,其设计初衷即非开放兼容,而是通过快速迭代新标准构筑底层壁垒。谷歌为TPU集群定制ICI协议,并深度耦合OCS光交换、专用光模块等硬件,形成类似苹果式的高度一致性生态系统;英伟达则自下而上构建NVLink体系,在带宽与低时延方面显著领先传统以太网,但受制于现有技术体系兼容性,短期内难以支撑百万卡级调度需求。专家强调:“AI云是赢家通吃的市场,一旦错失先机,很可能彻底被边缘化。”因此,封闭互联协议被视为现阶段最优竞争路径。
面对巨头强势壁垒,国产厂商普遍陷入“500人团队死磕自研”却难获话语权的困局。张翔指出,网络研发难度不亚于高端芯片设计,至少需500人团队支撑;子皓补充称,单打独斗的独立方案商难以建立事实标准。行业共识指向另一路径——拥抱开放生态。寒武纪与中兴通讯合作实现“分工解耦”,华为开放灵衢2.0协议,中国移动OISA联盟推动“国芯国连、协议共用”,这些案例表明接入开放生态可有效规避内耗并扩大产业协同空间。
更关键的是,统一协议为异构算力提供高效互联基础。谢威宇强调:“超节点提供了异构的契机,其通信与计算并非强耦合,所以统一的通信层为产业协同创造了条件。”在大模型推理任务中,不同模块天然适配差异化芯片,强行同构反而降低整体效率。王勇进一步指出,过度追求超节点规模将导致通信延迟增长抵消算力提升,进而抬升故障率与GPU闲置率,建议聚焦16–64卡中小型模型及128–256卡万亿参数模型等优势场景,通过低精度优化与互联协议协同来降低单Token成本。
展望未来,行业普遍相信,随着超节点成为全行业焦点,规模效应与性能需求将推动碎片化生态加速收敛。刘雨嫣指出,“CSP与大客户对封闭协议的容忍度日益逼近临界点”,英伟达已在2025年5月推出NVLink Fusion半定制架构作为开放尝试。历史经验显示,TCP/IP与4G LTE的标准化成功路径可为超节点提供镜鉴:唯有通过开放统一协议实现算力硬件全域互通与高效协同,才能支撑下一代AI算力基础设施爆发式增长。业界呼吁由国内大型云服务商与头部厂商协同,在工信部指导下共同制定中国国家标准,借力顶层引导与产业协同,形成自主可控、规模化落地的技术标准体系。
原文和模型
【原文链接】 阅读原文 [ 3790字 | 16分钟 ]
【原文作者】 雷峰网
【摘要模型】 qwen3-vl-flash-2026-01-22
【摘要评分】 ★★★★★



