英伟达再破世界纪录,每秒1000 token!刚刚,全球最快Llama 4诞生

AIGC动态2天前发布 AIera
129 0 0
英伟达再破世界纪录,每秒1000 token!刚刚,全球最快Llama 4诞生

 

文章摘要


【关 键 词】 AI推理优化延迟硬件

英伟达通过Blackwell架构在AI推理领域取得了突破性进展,单节点(8颗Blackwell GPU)的DGX B200服务器实现了Llama 4 Maverick模型每秒单用户生成1000个token(TPS/user)的惊人成绩。这一成就不仅刷新了AI推理的世界纪录,还展示了英伟达在硬件和软件优化方面的卓越能力。Blackwell架构通过一系列技术组合拳,包括TensorRT-LLM优化框架、EAGLE-3架构训练推测解码草稿模型、FP8数据格式的应用以及CUDA内核优化技术,实现了4倍的加速效果,显著提升了模型性能。

在优化过程中,英伟达特别关注了GEMM(通用矩阵乘法)、MoE(混合专家模型)及Attention(注意力)运算的优化,通过应用FP8数据格式,有效缩小了模型体积并提高了计算效率。此外,英伟达还实现了若干低延迟GEMM内核,并应用了各种内核融合技术,如FC13+SwiGLU、FC_QKV+attn_scaling以及AllReduce+RMSnorm,从而在最小延迟场景下表现出色。

英伟达还通过程序化依赖启动(PDL)技术,减少了同一CUDA流上两个连续CUDA内核执行之间的GPU空闲时间,允许次级内核在主内核仍在运行时就开始执行,显著提升了GPU的利用率。这一技术不仅消除了两个连续内核之间的执行间隙,还充分利用了GPU的计算能力。

在推测解码方面,英伟达采用了一种基于EAGLE3的架构,通过调整推测层中前馈网络(FFN)的大小来优化接受长度(AL)。推测解码技术通过一个规模更小、速度更快的「草稿」模型来预测一个推测token序列,然后由规模更大的LLM并行验证这些token,从而在不牺牲生成文本质量的前提下,加速了LLM的推理速度。英伟达还通过CUDA Graph和重叠调度器减少了主模型与草稿模型之间的通信和同步开销,进一步优化了推理过程。

总的来说,英伟达通过Blackwell架构、深度软件优化以及量身定制的推测解码实现,成功响应了下一代AI交互应用对低延迟的迫切需求。这些技术进步确保了即便是超大规模模型,也能够提供足够的处理速度和响应能力,以支持无缝的实时用户体验和复杂的AI智能体部署场景。

原文和模型


【原文链接】 阅读原文 [ 2990字 | 12分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...