文章摘要
【关 键 词】 互联网故障、AI依赖、基础设施、技术脆弱性、系统崩溃
2025年11月18日,全球互联网经历了一次大规模瘫痪事件,Cloudflare的系统故障导致约20%的依赖其服务的网站无法访问。这场被称为「半个互联网停摆」的事故,直接影响了包括ChatGPT、X、亚马逊、Spotify等在内的多家科技巨头,暴露出数字基础设施的深层脆弱性。故障高峰期间,网站监测平台Downdetector收到超过210万条报错反馈,而该平台自身也因依赖Cloudflare陷入瘫痪,形成闭环式的系统性风险。
事故源于一次常规的数据库权限升级操作。工程师试图将公用系统账号改为个人账号时,意外触发了旧代码的连锁反应。原本用于识别网络机器人的「特征名单」因权限变更导致数据重复抓取,内容膨胀一倍,最终突破系统200条硬性限制,触发内存溢出保护机制。这个被比喻为「保安眼镜度数错误」的技术失误,直接造成全球服务器切断连接。讽刺的是,当工程师试图通过ChatGPT寻求解决方案时,AI服务同样处于宕机状态。
事件背后折射出AI时代基础设施的悖论。Cloudflare的「机器人管理系统」本为防御AI爬虫设计,却在升级过程中反噬了其保护的AI服务商,形成「AI杀死AI」的荒诞局面。随着大模型训练对数据需求的激增,防御系统必须调用更多复杂特征(如鼠标轨迹、IP行为模式等)来识别机器流量,这种「特征膨胀」使得系统复杂度呈指数级增长。故障发生时,特征数量突破200个临界值,揭示了人类构建的防御体系已难以驾驭AI驱动的军备竞赛。
此次事件凸显了技术生态对单一底层服务的深度依赖。Cloudflare作为「隐形基建」提供商,其股价在事故当日下跌7%,反映出市场对集中式架构的担忧。更值得关注的是,吴恩达团队在宕机期间通过AI快速克隆Cloudflare功能,成为最早恢复服务的案例,展示了技术替代路径的可能性。而自称「元凶」的工程师在社交媒体的调侃,则暴露出人类操作在复杂系统中的不可预测性。
这场持续三小时的瘫痪如同一场数字世界的压力测试,既暴露了碳基规则与硅基系统间的适配鸿沟,也预示着AI时代基础设施将面临更多「不可预测的崩溃」。当互联网成为AI攻防的战场,其底层架构的稳定性和冗余设计,将成为数字文明存续的关键命题。
原文和模型
【原文链接】 阅读原文 [ 2501字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




