10万个英伟达H100 GPU芯片成本超过290亿，算力到底被谁卡了“脖子”？｜钛媒体AGI

AIGC动态1年前 (2024)发布 TMTPOSTAGI

2,313 0 0

10万个英伟达H100 GPU芯片成本超过290亿，算力到底被谁卡了“脖子”？｜钛媒体AGI

文章摘要

随着人工智能（AI）技术的快速发展，算力已成为衡量国家实力的重要指标之一，同时也是AI领域重要的成本投入。2023年全球AI芯片市场规模约为536亿美元，预计到2027年将达到1194亿美元。

首先，尽管AI能力在GPT-4发布后似乎停滞不前，但这主要是因为缺乏大幅增加专用于单个模型的计算量。目前，包括Google、Nvidia和Meta在内的大型AI实验室正在竞相构建拥有超过10万个GPU的集群，以实现更高效的AI训练。

此外，构建大型AI训练集群的过程远比投入资金复杂得多。由于网络等组件的故障率高，实现高利用率变得更加困难。同时，这些系统的电源挑战、可靠性、检查点、网络拓扑选项、并行方案、机架布局和总物料清单等问题也需要仔细考虑。

在AI训练中，数据并行性、张量并行性和管道并行性是三种常用的并行形式。为了最大化模型FLOP利用率，公司通常会将这三种并行形式结合起来形成3D并行。

在网络设计方面，不同的客户会根据数据传输基础设施、成本、可维护性、功率、当前和未来的工作负载等多种因素选择不同的网络拓扑。例如，小型H100集群通常仅通过一层或两层交换机，以400G的速度将每个GPU连接到其他每个GPU，仅使用多模收发器。

总之，随着AI技术的不断进步，算力的部署和优化面临着诸多挑战，包括数据中心容量和功率限制、网络设计和拓扑选择、并行方案的实现等。这些挑战需要行业内外的共同努力和创新来克服，以实现更高效、更可靠的AI训练和应用。

原文和模型

【原文链接】 阅读原文 [ 8719字 | 35分钟 ]
【原文作者】 钛媒体AGI
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # GPT-GPTs # 大模型 # AI芯片 # GPU集群 # 人工智能 # 算力集群 # 网络设计

文章版权归作者所有，未经允许请勿转载。

密苏里大学许东：大模型时代，Prompt 为生物信息学研究带来新动力丨IJAIRR

AI科技评论

3,049

突发！黄仁勋扔重磅“核弹”，全新英伟达RTX 500显卡AIGC性能提升高达1400%，AI PC时代真要来了｜钛媒体AGI

钛媒体AGI

1,967

陶哲轩：计算机通用方法，往往比深奥的纯数学更能解决问题

机器之心

1,730

0.5秒，无需GPU，Stability AI与华人团队VAST开源单图生成3D模型TripoSR

机器之心

1,817

240万亿巨量数据被洗出，足够训出18个GPT-4！全球23所机构联手，清洗秘籍公开

新智元

2,708

让腾讯和Altman大赚，被AI巨头“疯抢”，2024最大科技股IPO 来了

硅星人Pro

1,760

暂无评论

暂无评论...

10万个英伟达H100 GPU芯片成本超过290亿，算力到底被谁卡了“脖子”？｜钛媒体AGI

文章摘要

原文和模型

小红书、携程统统靠边站，Google Gemini 打造个性化旅游新体验

联创用ChatGPT写的一行代码让公司损失上万美元！网友：老板自己写的，找不到人背锅了

相关文章

暂无评论

热门网址

热门文章

10万个英伟达H100 GPU芯片成本超过290亿，算力到底被谁卡了“脖子”？｜钛媒体AGI

文章摘要

原文和模型

小红书、携程统统靠边站，Google Gemini 打造个性化旅游新体验

联创用ChatGPT写的一行代码让公司损失上万美元！网友：老板自己写的，找不到人背锅了

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章