Rust 闯大祸了！重写 53 天后 Cloudflare 搞出六年来最大失误，ChatGPT、Claude 集体失联

575 0 0

文章摘要

【关键词】 互联网、宕机事故、Cloudflare、服务中断、Rust代码

Cloudflare公司遭遇了一次持续约五个半小时的大范围宕机事故，导致包括OpenAI的ChatGPT和Sora、Claude、Shopify以及美国新泽西州公共交通系统官网在内的多款热门网站和AI服务下线。此次宕机始于美国东部时间11月18日凌晨5点20分左右，Cloudflare首次发现平台出现异常流量激增。约一个半小时后，该公司发布公告，确认内部服务出现故障，部分服务间歇性受到影响。故障不仅影响了面向网站的CDN服务，还波及了其应用服务产品套件，包括云端及本地工作负载的CDN功能以及应用程序接口保护服务。

宕机影响的广泛性凸显了Cloudflare在全球互联网基础设施中的关键作用。据该公司7月的一篇博客指出，全球约20%的网站依赖其管理和保护流量。受影响的平台包括X、Spotify、Canva、Letterboxd等，甚至宕机监测网站DownDetector自身也短暂受到影响。此外，伦敦地区的WARP VPN服务和部分用户的Cloudflare Access零信任网络访问工具也出现故障。美国东部时间上午8:09，Cloudflare宣布已查明问题并开始修复，但恢复过程并不顺利，最终服务于上午11点44分全面恢复。

宕机的根本原因与Cloudflare近期采用Rust语言重写核心代码的决策相关。有网友在X平台上指出，”Cloudflare的Rust重写版本并未经得起时间的考验”。据内部人士透露，宕机源于工程师修改旧配置文件时删除了维持路由系统稳定的关键代码行。配置文件部署后，监控系统报警，网络出现异常现象。修复过程涉及找回备份、回滚操作和恢复混乱的服务器集群。Cloudflare官方后来确认，问题源于一行Rust代码崩溃，具体是机器人管理模块的特征文件因权限变更导致规模超出预期，触发了软件系统崩溃。

此次事件暴露了互联网基础设施对单一供应商的过度依赖问题。Cloudflare首席技术官Dane Knecht澄清，宕机由公司内部配置变更引发，并非外部攻击所致。该公司在后续博客中详细解释了故障经过：数据库系统权限变更导致特征文件规模翻倍，超出软件限制。这是Cloudflare自2019年以来最严重的宕机事件，导致其股价下跌约3%。公司承认辜负了用户信任，并提出了四项系统加固措施，包括强化配置文件校验、增设紧急关闭开关等。

事件引发了关于互联网架构脆弱性的广泛讨论。批评人士指出，当大量关键服务都依赖同一供应商时，小故障可能引发连锁反应。有网友质疑：”互联网真的需要如此严重地依赖单一供应商吗？”此次宕机不仅影响了众多网站和服务的可用性，也促使业界重新思考分布式系统设计和故障隔离的重要性。Cloudflare表示，这是六年来首次出现导致大部分核心流量无法传输的情况，上一次重大宕机发生在2023年6月，持续约两个半小时。