标签:延迟权衡

为什么 DeepSeek 大规模部署很便宜,本地很贵

AI模型的推理服务在吞吐量和延迟之间存在权衡,这种权衡的核心在于批处理大小的选择。GPU擅长执行大型矩阵乘法(GEMMs),因此同时计算一批补全比逐个处理tok...