Pinterest 工程师消除 CPU 僵尸进程，解决生产环境瓶颈

417 0 0

文章摘要

Pinterest工程团队近期解决了一起导致分布式计算平台PinCompute上机器学习训练任务频繁崩溃的复杂故障。该问题最初表现为间歇性网络故障与弹性网络适配器设备重置，由于汇总CPU利用率指标显示正常，底层异常被有效掩盖。基础设施团队放弃高级仪表盘监控，转而采用逐核分析工具mpstat，发现个别内核的系统CPU使用率会连续数秒达到饱和状态。当处理网络中断的内核满载时，驱动程序轮询线程因缺乏处理周期受阻，触发自愈机制并导致连接中断，最终引发任务崩溃。

为定位内核饱和根源，工程师通过周期性性能捕获与Flamescope可视化工具进行深度追踪。调查最终将瓶颈锁定在基础镜像中默认启用但未被使用的Amazon ECS代理，该代理在重启后陷入崩溃循环并泄漏近七万个内存控制组。由于活跃控制组数量极少，大量僵尸控制组导致kubelet在同步状态时必须遍历庞大列表，从而长时间独占单个CPU内核。团队通过在基础镜像中禁用该代理的系统服务单元并重启受影响机器，成功清除了累积的控制组，内存控制组数量恢复稳定，网络重启与任务崩溃现象彻底消失。

此次排查经验表明，应用程序、编排器与内核之间的抽象层极易掩盖真实故障，冗余的用户空间守护进程足以引发严重的内核状态泄漏。尽管此次依赖手动分析定位问题，但持续且按时间索引的性能分析工具在提升生产环境可观测性方面具有关键价值。基于eBPF的监控平台与全局性能剖析工具能够提供集群级别的可见性，大幅缩短从异常症状到根本原因的排查路径。在大规模分布式环境中，系统性能不仅依赖应用代码质量，更深受基础镜像默认配置的影响。工程实践证实，对系统默认设置保持审慎态度并熟练掌握底层诊断工具，是保障复杂基础设施稳定运行的核心要素。