告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星

AIGC动态11小时前发布 AIera
49 0 0
告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星

 

文章摘要


【关 键 词】 多模态LLM推理编码器解码器性能优化

中国科学院计算技术研究所的研究团队在NeurIPS 2025发表论文《SpaceServe: Spatial Multiplexing of Complementary Encoders and Decoders for Multimodal LLMs》,提出了一种名为SpaceServe的创新架构,旨在解决多模态大语言模型(MLLM)推理过程中的性能瓶颈问题。该研究首次将LLM推理中的P/D(Prefill/Decode)分离思想扩展至多模态场景,通过EPD(Encoder-Prefill-Decode)三阶段解耦与「空分复用」技术,系统性地解决了编码器引发的行头阻塞难题。

当前主流系统如vLLM采用「时间复用」策略,导致GPU在执行视觉或音频编码时,文本解码器必须等待,造成严重的行头阻塞。在高并发场景下,这种设计使得解码器长期处于「饥饿」状态,TPOT(每输出token耗时)随请求率飙升,服务吞吐急剧恶化。SpaceServe的核心突破在于通过空分复用技术,让计算密集型的视觉编码器与内存密集型的文本解码器能够并发执行,充分利用GPU资源。

研究团队通过定量分析发现,视觉编码器和文本解码器在资源需求上具有高度互补性:前者计算密集但内存带宽需求低,后者则严重依赖HBM带宽存储KV Cache。SpaceServe的关键创新包括:首先,将编码器与解码器完全解耦并支持独立调度,利用现代GPU的细粒度SM分区能力实现物理共置;其次,采用TWSRFT编码器调度策略,按剩余工作量最短优先原则处理请求,平滑解码器输入流;最后,基于资源利用曲线动态分配计算单元,最小化端到端延迟。

实验结果表明,在Qwen2-VL系列模型上,SpaceServe显著优于vLLM。在高并发场景下,vLLM的TPOT从101ms恶化至365ms,而SpaceServe仅从8.85ms增至12.62ms,表现出卓越的稳定性。与NVIDIA MPS方案相比,SpaceServe通过SM级物理分区实现了真正的资源隔离,避免了缓存污染与occupancy下降,TPOT仅为40.68ms,比MPS提速3.3倍。

这项研究为MLLM推理树立了新范式,无需修改模型结构即可兼容主流MLLM,且代码已开源,有望集成至vLLM、SGLang等框架。值得注意的是,SpaceServe主要优化稳态吞吐(TPOT),对首token延迟(TTFT)影响有限,这与设计目标——确保解码器持续高吞吐——完全一致。该技术的推广应用将显著提升多模态服务在高分辨率图像理解、长视频分析等场景下的效率。

原文和模型


【原文链接】 阅读原文 [ 1117字 | 5分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...