标签:延迟

英伟达再破世界纪录,每秒1000 token!刚刚,全球最快Llama 4诞生

英伟达通过Blackwell架构在AI推理领域取得了突破性进展,单节点(8颗Blackwell GPU)的DGX B200服务器实现了Llama 4 Maverick模型每秒单用户生成1000个token...