OpenAI发布MRC超算协议,重塑10万GPU集群通信,AMD等合作推进

AIGC动态2小时前发布 AIGCOPEN
71 0 0
OpenAI发布MRC超算协议,重塑10万GPU集群通信,AMD等合作推进

 

文章摘要


【关 键 词】 大模型算力网络路径优化故障容忍行业标准

随着大语言模型训练规模突破万卡级别,超大规模计算集群对底层数据传输的稳定性提出了极高要求。

传统单路径网络极易因局部拥堵或单点线路老化引发全局延迟,任何数据包丢失都会迫使昂贵的计算任务中断重启。

传统架构下的微小网络波动会被同步预训工作负载成倍放大,直接导致极高的算力损耗与时间成本,迫切需求从物理拓扑层面进行彻底重构。

为此,多家科技企业联合开发了多路径可靠连接协议,将传统超高带宽通道拆解为多组独立并行的子平面,使得超大规模节点集群仅需两层交换机即可完成全互联配置,显著降低组件功耗与总体建设开支。

在流量调度机制上,新协议抛弃僵化的固定路由规则,采用分布式数据喷射技术将计算流量均匀摊薄至数百条物理路径中,接收端依据每个数据包头内置的内存坐标完成无序拼接,从根源上抹除了网络阻塞热点。

该架构同时引入静态段路由技术,剥离交换机的动态收敛计算职能,使其仅保留核对与转发的基础属性,从而根除了路由重计算引发的系统级震荡与隐蔽故障。

该协议已在多款顶级智算平台完成实地部署,依托底层融合以太网标准与健康周期探测算法,实现微秒级链路故障识别与毫秒级业务无感热切换。

标准化通信规范已面向全行业公开,通过跨生态的硬件协同对齐,构建出具备弹性减震能力的基础设施底座,为后续通用人工智能的持续规模化演进提供坚实支撑。


原文和模型


【原文链接】 阅读原文 [ 3052字 | 13分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 qwen3.6-plus
【摘要评分】 ★☆☆☆☆

© 版权声明
xunfeiagent

相关文章

trae

暂无评论

暂无评论...