压榨系统性能：视频审核中台从 280ms 降低至 90ms 的架构演进与深度优化

384 0 0

文章摘要

视频审核服务中台初期采用串行检测架构，旨在快速失败以节约算力，但在合法图片占多数的实际场景中，串行累加耗时导致链路延迟不可接受。系统底层潜伏着三大性能黑洞，包括被忽视的序列化与 IO 传输开销、极其严重的算力浪费以及黑产幻灯片冗余帧问题。Base64 编码导致数据体积膨胀且引发 GC 压力，而 URL 传输则受网络抖动影响稳定性。架构重构通过统一收口全链路零拷贝字节流传输，彻底解决了 IO 与 GC 瓶颈，消灭了带宽冗余。团队打破业务层只管发数据、AI 层自己管处理的传统思维，将原本分散在各个推理节点的图像预处理工作，剥离并收敛到了 Java 中台侧。利用 Java 原生多线程能力统一生成各模型需要的定制化特征图，采用混合模式决策树避免重复解码与缩放。前置公共处理中间层的设计，让下游 AI 服务仅需专注纯推断，显著降低了单请求耗时。针对冗余帧，引入感知哈希与贪心图染色算法进行智能批次去重，通过构建冲突图将相似图片分组，仅需计算首张图结果即可复用，极大提升了资源利用率。

优化后复合检测总平均耗时从 280 毫秒降至 90 毫秒左右，甚至跑赢了最慢模型的单独耗时。这一成果得益于将非核心逻辑向上层收敛，使底层 GPU 更专注高密度矩阵运算。原本包含网络拉取、解码、变换的胖接口被剥离，纯推断耗时仅需几十毫秒。虽然单帧处理速度可能不如 C++ 或 Python，但在高并发场景下，纯 Java 实现避免了 JNI 内存拷贝开销，完美契合现有 JVM 内存调优体系，综合吞吐量反而最高。打破服务绝对隔离的思维定势，从全局链路视角审视算力分布，才是大吞吐量 AI 审核中台架构设计的正确范式。未来计划引入专业推理服务器进一步压榨 GPU 吞吐极限，实现更高效的动态组批，确保持续满足实时审核业务的严苛要求。