业界首次：DeepSeek-V4 基于国产AI芯片+SGLang RBG的云原生推理方案在招商银行落地

43 0 0

文章摘要

大模型推理正逐渐从单机向分布式集群和分离式架构演进，但传统的Kubernetes工作负载原语难以满足多角色协作、拓扑敏感及快速可靠升级等复杂推理场景的需求。针对DeepSeek-V4 Flash大EP推理服务在国产AI芯片上的部署，主要面临多角色拓扑配置复杂、宿主机网络端口管理困难、服务发现时序依赖、故障域级联效应以及异构芯片适配和升级代价高昂等工程化挑战。这些痛点导致传统部署方式在资源灵活性、故障恢复及版本一致性方面存在明显短板。

为应对上述挑战，引入SGLang RBG组件作为核心解决方案。该组件专为分布式推理工作负载设计，通过对角色组的统一编排，实现了对宿主机网络、国产AI芯片及预填充与解码分离场景的完整工程化封装，并具备原地升级语义且无需侵入底层推理框架。在生产实践中，通过定义统一的自定义资源来集中管理路由、预填充和解码三个角色组。控制器能够自动完成动态端口分配、服务发现配置生成及故障时的实例级自愈重建，将复杂的底层运维逻辑转化为软件能力，大幅降低了人工配置的错误率与工作量。

在具体落地环节，底层网络与进程管理的细节对系统稳定性至关重要。跨机数据传输高度依赖RDMA网络，必须确保相关设备正确挂载至容器；同时需合理配置就绪与存活探针以支撑精准的健康检查，并引入tini作为容器初始进程，确保终止信号正确传播与孤儿进程有效回收，从而保障原地升级时的优雅停流。通过将地址发现和端口管理全面交由控制器处理，运维人员得以聚焦于业务语义层面的配置。该方案系统性地解决了超大参数模型在异构算力集群中的部署与运维难题，显著提升了推理服务的可靠性与资源利用效率。