机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 117|回复: 0

AI杀死AI

[复制链接]

2万

主题

3万

帖子

19万

积分

超级版主

Rank: 8Rank: 8

积分
198582
发表于 4 天前 | 显示全部楼层 |阅读模式
2025年11月18日,全球AI数字生态系统经历了一次近乎心跳骤停般的休克。
Cloudflare崩溃了!
然后全球五分之一的互联网服务几乎全部宕机,尤其是,AI巨头集体断网!ChatGPT、X全线崩盘!
真正的情况是,Cloudflare现在互联网真正的底座。
马斯克在之前亚马逊宕机时还调侃,这次终于是风水轮流转!
只不过,老马没想到的是,这次CF的影响直接让自己家服务也宕机了~
Cloudflare的CTO赶紧发了个申明:是我们的错误,立正挨打。

下面会详细介绍这次引发故障的原因,简直就是草台班子级别,只能说人类社会用规则来和计算机打交道还是太脆弱了!
先说说这次事故的影响,这起事故影响范围之广前所未见,被称为“半个互联网的停摆”毫不夸张——约20%的网站依赖Cloudflare提供服务。
Cloudflare还有个称号叫做赛博活佛,特别是在极客群体中,很多服务,如果个人用都是免费的。
故障高峰时,网站故障追踪平台Downdetector收到了累计逾210万条报错反馈,成为近年来最严重的基础设施级中断之一。
包括亚马逊、Spotify、Zoom、Uber等知名服务也受到波及(部分功能异常或加载缓慢)。

Cloudflare作为支撑全球海量流量的“隐形基建”,一次失误便牵一发而动全身,令股价盘中一度重挫约7%。
更令人深思的是,一些本用于监测网络故障的工具(如Downdetector)因本身也使用Cloudflare,甚至在事故中一同瘫痪—整个互联网生态对单一底层的依赖程度,由此可见一斑。
更“细思极恐”的是,当Cloudflare的工程师想要打开ChatGPT来修复故障时,AI也宕机了~
很多网友都形容那宕机的三个小时,如此“黑暗”,就像回到了远古时期。

Cloudflare这次导致全球断网的技术故障,其实是一次典型的“好心办坏事”,起因是系统“大扫除”。
根据Cloudflare官方博客的复盘,事情是这样发生的:
简单来说,就是工程师试图升级安保系统的权限,却意外让负责安检的软件“吓晕”了。
工程师原本在进行一项常规的维护工作,目的是为了提高安全性。他们调整了数据库的权限,想把原本公用的“系统账号”改成责任更明确的“个人账号”。
然后这个看似无足轻重的操作,触动了隐藏在系统中“旧伤”。
系统里潜伏着一段很老的代码,它负责生成一份用来识别网络机器人(17.140,-0.16,-0.92%)的“特征名单”(Feature File)。
这段代码以前只在一个默认的数据库里找名单,所以没问题。
但这次权限升级后,它突然能看到另一个备份数据库了。
由于代码里没写清楚“只看哪一个”,它傻乎乎地把两边的名单都抓取了过来,名单被“膨胀”了。
这导致那份原本精简的“特征名单”瞬间膨胀,内容重复了一倍。
结果就是,保安“罢工”。

Cloudflare负责在全球各地转发流量的核心软件有一个硬性规定:为了保证速度,名单长度不能超过200条。
当这份意外“发福”名单被推送到全球服务器时,软件发现名单太长读不完,直接触发了内存溢出保护机制(Panic),也就是彻底崩溃。
为了安全起见,它切断了所有连接。
本来机器数据库权限不够,调整后,它突然权限高了点,然后也没有为这个情况提前写下判断代码。

打个再通俗的比方(可能不是那么准确)。
这就好比大楼物业给保安发了一副新眼镜(升级权限),本意是让他看得更清楚。
结果因为新眼镜度数没调好,保安看手里的“访客黑名单”时出现了重影,原本100人的名单在他眼里变成了200人。
保安的脑容量(系统限制)记不住这么多人,瞬间由于信息过载而“死机”晕倒,导致大楼门禁系统自动锁死,把所有访客(包括X和ChatGPT的用户)都关在了门外。
不过目前问题已经修复了(其实不是啥大问题,就是逻辑改改就行)。

如果不只是把这次事故看作一个单纯的技术故障,而是放在2025年“AI疯狂吞噬数据”的背景下去看,你会发现这充满了黑色的讽刺意味。
导致这次崩溃的核心组件是“机器人管理系统(Bot Management)”。
在2025年,这个系统的主要假想敌是谁?正是AI爬虫。
随着大模型训练对数据的极度渴求,互联网上充斥着无数自动化的AI抓取程序。
Cloudflare作为“守门人”,必须不断升级其算法来区分“真人”和“AI机器人”。
特征文件(Feature File),对就是报告中提到的那个导致崩溃的“特征文件”,实际上就是机器学习模型用来判断流量性质的“参数集”。
每一个“特征(Feature)”都是一个判断维度(比如鼠标移动轨迹、点击频率、IP行为模式等)。
为了应对越来越狡猾的AI机器人,Cloudflare的防御系统变得越来越复杂,需要调用的“特征”越来越多。
这次故障的直接原因就是数据库错误地吐出了过多的特征数据,导致防御系统的“大脑”过载。
这不是一次普通的软件崩溃,这是“数字免疫系统”在试图升级以对抗AI病毒时,因自身的排异反应而休克。

这次事件最荒诞的地方在于受害者名单。
OpenAI、xAI、Perplexity:这些是全球最大的AI公司,它们同时扮演了两个角色:
它们的爬虫在全网搜刮数据,迫使Cloudflare建立更复杂的防御系统(即这次崩溃的源头)。
它们自己也极其依赖Cloudflare来防止被别人攻击或滥用。
Cloudflare为了防御AI抓取行为而维护的系统,因为一次配置错误,反过来“杀死了”最顶级的AI服务商。
这就像是为了防止野兽入侵而把城墙修得太高太重,结果城墙倒塌,把住在城里的国王(AI巨头)给压垮了。
这揭示了AI时代基础设施的内卷化困境——为了对抗技术的滥用,我们不得不把基础设施造得越来越复杂、越来越脆弱。
你问这和AI有什么关系,或许这就是AI时代的“技术债”。

这里有一个更深层的隐喻:“特征膨胀”。
在传统的软件工程中,逻辑通常是线性的。
但在涉及AI和机器学习的防御体系中,系统依赖于成百上千个“特征”来进行概率判断。
这次故障是因为特征数量突破了200个的硬编码限制而引发的。
这暴露了一个问题:我们正在构建一种人类难以完全掌控的“黑箱基建”。
为了拦截智能程度极高的AI机器人,防御规则不能再是简单的黑白名单,而必须是动态的、基于行为分析的复杂模型。
这种复杂度的指数级上升,意味着未来类似的“不可预测的崩溃”会越来越多。
我们正在用复杂的AI(防御)去对抗复杂的AI(进攻),而夹在中间的,是脆弱的物理互联网。
这次宕机不仅是一个配置错误,它是人类互联网为了适应AI寄生而进行的一次痛苦痉挛。
它是“矛”(AI抓取)与“盾”(AI防御)在无限升级的军备竞赛中,把战场(互联网基础设施)给撑爆了。

评分

参与人数 1威望 +3 收起 理由
机械 + 3 神马都是浮云

查看全部评分

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2025-11-25 10:09 , Processed in 0.086729 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表