122 天打造的奇迹:深入探访 xAI 的 10 万块 GPU 超级 AI 计算机集群

AIGC动态4周前发布 ai-front
283 0 0
122 天打造的奇迹:深入探访 xAI 的 10 万块 GPU 超级 AI 计算机集群

 

文章摘要


【关 键 词】 超级计算机人工智能液冷技术高性能能源效率

xAI Colossus超级计算机集群位于孟菲斯,由马斯克的xAI公司建造,拥有10万块NVIDIA H100 GPU,以其庞大的规模和惊人的建设速度而闻名。该集群仅用122天建成,展示了其内部结构和运作方式。超微电脑(Supermicro)赞助了这次参观活动,因为这是今年涉及的最昂贵项目之一。部分内容因构建全球最大人工智能集群的敏感性而进行了模糊处理。

Colossus的基本构建模块是超微液冷机架,每个机架配备八台4U服务器,每台服务器搭载八块NVIDIA H100 GPU,每个机架总共有64块GPU。这些机架按每八个机架一组,每组512块GPU,并配备网络设施,实现小型集群的部署。xAI采用的是超微4U通用GPU系统,代表了市场上最先进的人工智能服务器,以其液冷技术和出众的可维护性领先。

超微4U通用GPU系统的液冷技术、可维护性和液冷设计使其成为行业领先的下一代设计。系统安装在无需从机架中移除即可进行维护的托盘上,1U机架的歧管设计有助于引入冷却液和排出热液。快速断开装置使得液冷系统可以迅速移除,部件可以单手轻松拆卸和安装。

在网络方面,采用400GbE连接光纤,每个系统都有九条这样的链接,每个GPU计算服务器能够提供大约3.6Tbps的带宽。网络技术栈中集成了一些先进的技术,确保数据准确无误地传输到目的地,并有效规避集群中的潜在瓶颈。

在存储方面,几乎所有存储服务器都采用了超微的产品。大型人工智能集群已经从传统的磁盘存储转向了闪存技术,因为这样不仅大幅降低了能耗,还带来了更高的性能和存储密度。

在电力和供水设施方面,这里有巨大的水管,里面流着冷却水和温水。冷水被引入设施,并在每个机架中通过CDU进行循环。热量从GPU和后门热交换器循环传递到CDU处的设施水循环。随后,较暖的水被输送至设施外的冷却塔。在电力方面,孟菲斯系统建造期间的场景颇为壮观,团队正在安装巨大的电缆。在设施外部,看到了装有特斯拉Megapack的集装箱,以缓冲功率波动,确保整个设施的稳定性和可靠性。

这个项目能够得以实现,完全依赖于一群专家共同怀揣着以空前速度建造庞大AI集群的宏伟愿景。许多极具智慧的人才正在投入巨额资金和时间,以尽可能快的速度实现这一宏伟目标。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 4116字 | 17分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...