AI 推理竞赛正在升温

AIGC动态2年前 (2024)发布 ai-front

4,358 0 0

文章摘要

在AI推理领域，尽管英伟达的GPU保持着其在AI训练领域的领导地位，但竞争对手正在迅速追赶，尤其是在能效方面。最近，ML Commons发布了MLPerf Inference v4.1的竞赛结果，显示了AMD、谷歌、UntetherAI和英伟达等公司的最新芯片性能。

MLPerf Inference竞赛包括多个类别和子类别，其中“封闭数据中心”类别的提交数量最多。这个类别要求在不进行重大软件修改的情况下运行推理任务，评估的是批量处理查询的能力。新增的Mixture of Experts基准测试反映了LLM部署的趋势，即将大型语言模型分解为针对特定任务优化的小型模型，以提高效率和降低成本。

在封闭数据中心基准测试中，基于英伟达H200 GPU和GH200超级芯片的参赛者获胜。英伟达的Blackwell芯片在LLM问答任务中表现出色，性能是之前芯片的2.5倍。Untether AI的speedAI240预览芯片在图像识别任务中与H200性能相当。谷歌的Trillium在图像生成任务上的性能约为H100和H200的一半，而AMD的Instinct在LLM问答任务上的性能与H100相当。

英伟达Blackwell芯片的成功归因于其能够使用4位浮点精度运行LLM，以及显著提升的内存带宽。Blackwell芯片设计用于联网和伸缩性，支持多达18个NVLink连接，总带宽达到每秒1.8兆字节。英伟达预计Blackwell芯片将在六个月内上市。

Untether AI在功耗和边缘计算方面表现出色，其芯片采用内存内计算，显著减少了模型数据在内存与计算核心间传输所需的时间和资源。在MLPerf的“封闭边缘”子类别中，Untether AI的speedAI240预览芯片在延迟性能和吞吐量方面均优于NVIDIA L40S。

Cerebras和FuriosaAI虽然未提交MLPerf评测，但也发布了新的推理芯片。Cerebras专注于制造大型芯片，以提高内存带宽，而Furiosa的芯片采用了张量收缩处理器架构，以更有效地实现AI推理中的矩阵乘法。

IBM也发布了新款Spyre芯片，旨在满足企业生成式AI工作负载需求，并计划于2025年第一季度推向市场。这些进展表明，AI推理芯片市场的竞争正在加剧，买家将有更多的选择。