国产芯片错过「组团反杀」英伟达机会，或因死磕自研互联协议

60 0 0

文章摘要

当前AI算力基础设施正面临超节点互联协议生态严重碎片化的关键瓶颈。全球已形成多条技术路线并行格局：英伟达凭借NVLink构建封闭全栈体系，在高端训练领域占据主导；华为依托灵衢超节点架构实现国内智算中心规模化部署；UALink、ETH-X、SUE及OISA等开放联盟则致力于打造多厂商兼容的统一协议生态，试图打破英伟达垄断。这一分化导致设备互操作性受限，客户一旦选中某条路线便陷入高迁移成本困境。

资深专家指出，英伟达新一代DGX SuperPOD规模上限为576颗Rubin GPU的核心原因在于其多层异构互联架构——GPU与CPU间采用NVLink或PCIe，GPU与GPU间依赖NVLink，而跨服务器互联又需借助InfiniBand或以太网，这种多层次通信机制直接推高集群维护成本并削弱网络弹性。业内普遍认为，当前超节点仍处极早期阶段，其出现本质是云计算从通算向智算转型的结果，而互联协议正是突破“通信墙”的关键所在。

巨头如谷歌和英伟达采取封闭策略并非偶然，其设计初衷即非开放兼容，而是通过快速迭代新标准构筑底层壁垒。谷歌为TPU集群定制ICI协议，并深度耦合OCS光交换、专用光模块等硬件，形成类似苹果式的高度一致性生态系统；英伟达则自下而上构建NVLink体系，在带宽与低时延方面显著领先传统以太网，但受制于现有技术体系兼容性，短期内难以支撑百万卡级调度需求。专家强调：“AI云是赢家通吃的市场，一旦错失先机，很可能彻底被边缘化。”因此，封闭互联协议被视为现阶段最优竞争路径。

面对巨头强势壁垒，国产厂商普遍陷入“500人团队死磕自研”却难获话语权的困局。张翔指出，网络研发难度不亚于高端芯片设计，至少需500人团队支撑；子皓补充称，单打独斗的独立方案商难以建立事实标准。行业共识指向另一路径——拥抱开放生态。寒武纪与中兴通讯合作实现“分工解耦”，华为开放灵衢2.0协议，中国移动OISA联盟推动“国芯国连、协议共用”，这些案例表明接入开放生态可有效规避内耗并扩大产业协同空间。

更关键的是，统一协议为异构算力提供高效互联基础。谢威宇强调：“超节点提供了异构的契机，其通信与计算并非强耦合，所以统一的通信层为产业协同创造了条件。”在大模型推理任务中，不同模块天然适配差异化芯片，强行同构反而降低整体效率。王勇进一步指出，过度追求超节点规模将导致通信延迟增长抵消算力提升，进而抬升故障率与GPU闲置率，建议聚焦16–64卡中小型模型及128–256卡万亿参数模型等优势场景，通过低精度优化与互联协议协同来降低单Token成本。

展望未来，行业普遍相信，随着超节点成为全行业焦点，规模效应与性能需求将推动碎片化生态加速收敛。刘雨嫣指出，“CSP与大客户对封闭协议的容忍度日益逼近临界点”，英伟达已在2025年5月推出NVLink Fusion半定制架构作为开放尝试。历史经验显示，TCP/IP与4G LTE的标准化成功路径可为超节点提供镜鉴：唯有通过开放统一协议实现算力硬件全域互通与高效协同，才能支撑下一代AI算力基础设施爆发式增长。业界呼吁由国内大型云服务商与头部厂商协同，在工信部指导下共同制定中国国家标准，借力顶层引导与产业协同，形成自主可控、规模化落地的技术标准体系。