首个国产全功能GPU的万卡集群来了！“中国英伟达”出品

AIGC动态2年前 (2024)发布 QbitAI

4,027 0 0

文章摘要

摩尔线程推出了国内首个全功能、兼容CUDA的纯国产GPU 万卡集群，具备超过10000张高性能GPU，总算力超过万P，专为万亿参数级别的大模型训练设计。该集群不仅规模庞大，还在计算效率、稳定性和通用性方面达到了国际水平。其有效计算效率（MFU）目标最高可达60%，周均训练有效率目标超过99%，平均无故障运行时间超过15天。集群设计通用，能够加速各种大模型，并支持生态Day0级快速迁移，与CUDA完全兼容。

摩尔线程的智算中心全栈解决方案夸娥（KUAE）升级后，成为国内首个万卡集群。国内算力市场在今年上半年已有多家头部玩家布局万卡集群，但纯国产GPU的万卡集群仍属罕见。随着生成式AI和大模型的快速发展，算力需求变得更加复杂和多样化，万卡集群已成为大模型玩家的最低标配，推动国产GPU进入“万卡时代”。

摩尔线程创始人兼CEO张建中指出，当前正处于生成式人工智能的黄金时代，GPU成为加速新技术浪潮的创新引擎。夸娥万卡智算集群作为摩尔线程全栈AI战略的重要组成部分，为各行业的数智化转型提供了强大算力。摩尔线程致力于解决国家和行业在大算力方面的需求。

为了打造一个好用的万卡集群，摩尔线程提出了“好用公式”：规模够大、计算通用、生态兼容。夸娥万卡集群具备五大特点：超大算力、有效计算效率、高稳定性、通用性和生态友好。集群实现了单集群规模超万卡，浮点运算能力达到10Exa-Flops，显存容量和传输带宽均达PB级，全面提升计算性能。通过系统软件、框架和算法的优化，集群的MFU值最高可达60%。在稳定性方面，集群平均无故障运行时间超过15天，最长可实现大模型稳定训练30天以上。

夸娥万卡集群专为通用计算场景设计，支持多种大模型架构和模态，并采用高效且用户友好的MUSA编程语言，完全兼容CUDA，配合自动化迁移工具Musify，实现新模型的即时迁移。摩尔线程在超大规模组网互联、集群有效计算效率、训练高稳定与高可用、故障快速定位与可诊断工具、生态快速迁移等方面进行了深入研究和优化。

摩尔线程的万卡集群不仅解决了当前算力不足的问题，还为大模型训练提供了强大的支持。随着大模型的快速迭代更新，算力需求不断增加，摩尔线程通过万卡集群和全栈方式，打造了一个大模型训练的超级加工厂，匹配大模型快速更迭的速度。摩尔线程的前瞻性策略和决定，使其在国产GPU领域取得了领先地位，市场认可度也在不断提升。