基于 SGlang RBG + Mooncake 打造生产级云原生大模型推理平台

305 0 0

文章摘要

大语言模型（LLM）推理服务正迅速成为企业级应用的核心基础设施，其生产级落地需平衡性能、稳定性与成本。当前架构正从单体模式向分布式演进，主流路径包括Prefill-Decode分离、Attention-FFN分离及KVCache外置。这种演进源于模型规模扩张带来的显存压力——在长上下文或高并发场景下，KVCache显存占用常超70%。KVCache解耦外置不仅能突破存储瓶颈，还可实现跨请求缓存共享、弹性伸缩等关键能力，成为RAG、AI Agent等场景的必选项。

Mooncake作为分布式KVCache存储引擎，通过专用缓存集群为SGLang等推理框架提供高吞吐、低延迟服务。然而，其生产环境管理面临部署运维复杂度高、滚动升级稳定性风险等挑战。RoleBasedGroup（RBG）应运而生，通过多角色协同编排，统一管理Mooncake缓存与推理节点，实现部署、升级与弹性的协同。RBG的核心能力包括拓扑感知运维（Stable）、跨角色协同策略（Coordination）、编排化服务发现（Orchestration）、高性能调度（Performance）及可扩展抽象（Extensible）。

测试数据表明，多级缓存架构显著提升性能：引入L3 Mooncake缓存后，平均TTFT降低56.3%至2.58秒，输入Token吞吐提升至15022.80 token/s。RBG的原地升级能力结合Mooncake缓存持久化，解决了版本升级时的缓存丢失问题，使P99延迟保持稳定，避免吞吐量断崖。通过RBG部署的PD分离架构包含SGLang Router、Prefill/Decode服务后端及Mooncake存储角色，形成有机协同的整体。

Mooncake通过RDMA加速与零拷贝机制实现高效数据访问，其核心组件包括管理集群的Master Service与提供分布式缓存的Store Service。RBG则通过声明式API将角色关系定义与部署策略解耦，支持快速适配新架构。两者结合为现代LLM推理工作负载提供了兼具性能与稳定性的解决方案，使大模型推理服务在云原生环境中实现“升级无感、服务不抖”的生产级目标。