标签：延迟权衡

为什么 DeepSeek 大规模部署很便宜，本地很贵

AI模型的推理服务在吞吐量和延迟之间存在权衡，这种权衡的核心在于批处理大小的选择。GPU擅长执行大型矩阵乘法（GEMMs），因此同时计算一批补全比逐个处理tok...

AIGC动态

8个月前