11 月 19 日消息,北京时间昨晚,Cloudflare 因核心服务的一个漏洞引发严重故障,波及全球。不只是 X、ChatGPT,甚至连用来查故障的 Downdetector 都受到了影响。这次故障也被小伙伴调侃:上次 Amazon “挂壁”带走了半个互联网,这次 Cloudflare 带走了剩下半个。
服务恢复后,Cloudflare CTO Dane Knecht 公开致歉说,此次事故“不可接受”,并指出一次例行配置调整触发了机器人防护层崩溃。
故障从 11 月 18 日协调世界时 11:48 左右开始。Cloudflare 状态页最初仅显示“内部服务性能下降”,但问题迅速扩大,多地用户反映访问大量由 Cloudflare 支撑的网站受阻,连 Access 和 WARP 也无法正常使用。Cloudflare 随后确认,机器人防护工具中的某个依赖是事故源头。
Knecht 说:“Cloudflare 辜负了客户和更广泛的互联网。例行配置调整后,机器人防护底层服务的潜在漏洞被触发并开始崩溃,最终导致网络与其他服务大面积受影响。这不是攻击。”
到协调世界时 14:42,Cloudflare 完成修复并逐步恢复服务。仪表板的分析和错误日志功能在下午仍不稳定,工程师持续观察是否还有残留问题。作为应对措施之一,伦敦地区短暂关闭了 WARP 访问。
Cloudflare 的机器人防护体系包括 Turnstile 等挑战流程与 JavaScript 验证环节,直接串联在大量知名网站与 API 流量路径上。由于这些组件不仅拦截恶意流量,也负责放行正常用户,一旦出现故障,即便 CDN 或 DNS 核心服务完好,也足以造成全网级别的混乱。
据外媒 Tom's Hardware 报道,这次是近一个月内第三次重大宕机事故。10 月,AWS 的 US-East-1 区域因 DNS 配置损坏而停摆超过 2 小时。数天后,微软又遭遇大规模 Azure 宕机。
这连串事件引发更多质疑:全球主流平台在超大规模运行时,究竟能否有效隔离内部故障和系统依赖。约 19% 的互联网依靠 Cloudflare,而 Azure 和 AWS 在云市场的占比分别约为 24% 与 30%。