英伟达发布GB200 NVL72，将万亿参数大模型推理效率提升30倍

AIGC动态2年前 (2024)发布 AIGCOPEN

4,166 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★★

文章摘要

3月19日，英伟达在“2024GTC”大会上发布了新一代AI专用GPU GB200 NVL72，专门面向万亿参数大模型训练和推理。这款产品在训练MoE（专家混合模型）时，能够在数千个GPU上进行训练，需要超高的并行计算、快速存储和高性能通信。相比上一代的H100 GPU，GB200 NVL72可以提升训练效率4倍，数据处理效率6倍，实时推理效率30倍。其核心架构是NVIDIA GB200 Grace Blackwell Superchip，通过NVLink-Chip-to-Chip（C2C）接口连接两个高性能的NVIDIA Blackwell Tensor Core GPU和NVIDIA Grace CPU，提供900GB/s的双向带宽，支持统一内存空间访问，简化编程，满足万亿参数的多模态大模型需求。GB200的计算托盘基于新的NVIDIA MGX设计，包含两个Grace CPU和四个Blackwell GPU，提供80petaflops的AI性能和1.7TB的快速内存。

GB200支持在NVLink域中使用36和72个GPU，每个机架基于MGX参考设计和NVLink交换系统承载18个计算节点。GB200 NVL72配置为一个机架内有72个GPU和18个双GB200计算节点，或者在两个机架内配置72个GPU和18个单个GB200计算节点。采用了液冷系统设计，能够降低成本和能耗。英伟达的SerDes推动了GPU到GPU通信的创新，第五代NVLink速度为160GB/s，支持多GPU通信，NVIDIA GB200 NVL72使用了第五代NVLink，可连接多达576个GPU，总带宽超过1PB/s，快速内存可达240TB。

在性能展示方面，GB200 NVL72在大模型训练和推理方面表现出超强性能，通过32k GB200 NVL72训练1.8万亿参数的GPT-MoE模型性能提升4倍，整体效率提升30倍。在数据处理方面，GB200 NVL72引入了硬件解压缩引擎，支持多种压缩格式，提供高达800GB/s的性能，比CPU和H100快速度分别快18倍和6倍，加快了数据库查询的整个过程，降低了数据存储和处理成本。GB200 NVL72凭借高内存带宽和高速NVlink芯片到芯片，加速了数据处理过程，使组织能够快速获得数据见解。

原文信息

【原文链接】 阅读原文
【阅读预估】 1048 / 5分钟
【原文作者】 AIGC开放社区
【作者简介】 专注AIGC领域的专业社区，关注微软OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！