直击算力焦虑,这家清华系 AI 创企搞了个千卡异构混训平台,算力利用率最高达 97.6%

AIGC动态5个月前发布 ai-front
1,068 0 0
直击算力焦虑,这家清华系 AI 创企搞了个千卡异构混训平台,算力利用率最高达 97.6%

 

文章摘要


【关 键 词】 异构训练AI芯片混合计算模型优化算力挑战

GPT-4等大型模型在自然语言处理、机器翻译和文本生成等领域取得了显著成就,但随着模型参数的增加,计算和内存需求也随之增加,给算力和内存带来了巨大挑战。

为了解决这一问题,无问芯穹联合创始人兼CEO夏立雪在2024年世界人工智能大会上发布了全球首个千卡规模异构芯片混训平台,该平台支持AMD、华为昇腾等六种异构芯片的大模型混合训练,最高利用率可达97.6%。

目前,全球大模型训练主要采用PyTorch、Megatron等计算框架与英伟达GPU进行分布式训练。

尽管英伟达GPU在算力供给中占主导地位,但中国本土芯片制造商也在研发高能效AI处理器,为大模型训练提供多样化算力支持。

然而,大模型训练需要大量GPU卡并行运算,如Llama3-70B模型需要900张H100 GPU卡持续工作10个月。

在实际应用中,可能无法集齐足够数量的同型号GPU卡,需要将不同品牌、规格的GPU卡混合使用以满足训练需求。

异构芯片混合训练面临两大挑战:一是异构卡通信库差异导致通信困难;二是算力不均衡导致性能损失。

为解决这些问题,无问芯穹与清华、上交联合研究团队提出了一种针对大模型的异构分布式混合训练系统,包括多芯片互通互联的复杂性和算力不均衡导致性能损失的挑战。

针对通信问题,研究团队实现了无穹集合通信库(IHCCM),支持基于CPU或基于GPU的两种通信方式。

基于CPU的通信方案注重异构集群的可扩展性,通过高速PCIe交换机和IPoIB或以太网实现高效数据传输。

基于GPU的通信方案采用RDMA技术和InfiniBand网络进行高效数据交换,通过标准化的分布式通信接口规范实现异构GPU间的通信。

针对算力不均衡问题,研究团队提出了基于流水线并行的非均匀拆分策略和基于数据并行的异构训练

通过合理分配不同芯片的计算任务,实现资源的最优配置。

同时,还需考虑芯片位置顺序、模型embedding层计算量、显存大小与重算策略等因素,以实现整体训练吞吐量的最大化。

目前,该系统框架已在任意两种不同硬件组成的异构混训集群上实现Llama2-7B/70B模型的训练,算力利用率达到97.6%。

研究团队希望继续整合更多异构算力,推高大模型技术能力的上限,打破单一芯片品牌训练资源瓶颈。

未来将持续探索提升异构集群算力整合效率的方法,构建适应多模型与多芯片格局的AI Native基础设施。

此外,AIGC技术正重塑创新边界,InfoQ推出《大模型领航者AIGC实践案例集锦》电子书,深度对话30位大模型专家,展示大模型在多个行业的应用成果。

AICon全球人工智能开发与应用大会聚焦大模型训练与推理等前沿议题,汇聚AI和大模型落地场景与最佳实践,帮助与会者把握大模型时代机遇。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3596字 | 15分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...