去年 8 月,DARPA 在拉斯维加斯办了 Artificial Intelligence Cyber Challenge,也就是 AIxCC。多支顶级网络安全团队把自己的 AI 找洞系统带到现场,扫描 5400 万行真实软件代码。

这些代码里,DARPA 人工植入了一批漏洞。结果有点反常:参赛系统找出了多数人工漏洞,还发现了十多个 DARPA 没有植入的真实漏洞。

这比单个新模型发布更能说明问题。Anthropic 近期推出的 Claude Mythos 被描述为能在大量软件中发现漏洞,确实让安全圈紧张。但我更在意的是另一件事:AI 找洞能力正在从“专家手里的工具”向更低技能的人群外溢。

问题不只是 AI 会不会找洞。

问题是,谁能用它找洞。

AIxCC 说明能力增强,但别急着当成成熟商用品

AIxCC 的分量,在于测试对象不是玩具项目。5400 万行真实软件代码,已经接近企业和开源项目每天面对的复杂度:依赖多、旧代码多、风格不统一,问题也不总是写在明面上。

几个事实锚点先放清楚:

维度AIxCC 中的事实这说明什么
时间地点去年 8 月,拉斯维加斯这是 DARPA 组织的公开挑战场景
测试对象5400 万行真实软件代码不是小样本演示,复杂度更接近现实
漏洞设置DARPA 人工植入漏洞用来衡量 AI 系统的发现能力
额外结果找到十多个未植入真实漏洞自动化系统已能发现预期外问题

这组结果至少表明,AI 找洞已经不再只是漂亮 demo。它能在真实代码堆里找到有价值的线索。

但边界也要说清。

比赛环境有目标、有规则、有评估方式。企业系统没有这么干净。真实环境里,安全团队还要处理权限边界、误报、补丁验证、业务停机、版本兼容和责任归属。

AI 能多报出一批疑点,不等于团队能多修完一批漏洞。很多公司的瓶颈不在“有没有扫描工具”,而在“谁判断优先级、谁推动修复、谁承担上线风险”。

所以,AIxCC 不是在告诉我们“AI 安全工具已经全面成熟”。它更像是在提醒:找洞这件事的自动化上限被抬高了,防守流程如果还按旧速度跑,会被拖出时间差。

新一代“脚本小子”不只是复制脚本

“Script kiddie”过去指低技能攻击者。这个词不是说儿童或青少年,而是指不会写 exploit、也不真正理解漏洞原理的人。

他们的典型做法,是复制网上脚本,使用现成工具包,照着教程跑。技术含量不高,但破坏力并不一定低。弱口令、未打补丁系统、暴露在公网的服务,过去一直给这类人留下空间。

AI 让这个群体的能力边界变了。

它不只是递给用户一段现成脚本。更要紧的是,它可能帮助低技能攻击者读懂报错、理解漏洞说明、整理公开信息,并把几个零散结果拼成更清楚的行动判断。

这里不能夸大成“任何人马上都能发动高级攻击”。高级目标仍然需要经验、耐心、环境理解和规避能力。模型访问限制、内容安全策略、成本和目标复杂度,都会形成现实约束。

但低端攻击的门槛确实在下降。

过去的低技能攻击者,常常卡在“看不懂”。现在,AI 可能把一部分“看不懂”变成“能问明白”。这才是风险变化的核心。

过去的低技能攻击者AI 辅助后的变化防守方压力
主要复制现成脚本能更快理解漏洞描述和报错扫描噪音可能变多
依赖别人打包好的工具能把多个公开信息串起来暴露资产更容易被盯上
遇到失败容易停下能反复询问、调整思路低水平试探的频率上升
很难判断漏洞价值更容易理解影响范围漏洞排序窗口被压缩

历史上,Metasploit 降低了漏洞利用的操作成本,Shodan 降低了暴露资产的发现成本。AI 的不同点在于,它可能同时降低理解成本和组合成本。

这对防守方更麻烦。因为你面对的不是某一个工具,而是一批原本能力不足的人,突然有了“解释器”和“助教”。

安全团队该盯流程,AI 风险读者该盯约束

受影响最直接的,是两类人。

一类是网络安全从业者。对他们来说,眼下不该只追着 Claude Mythos 这一类模型看,也不该因为 AIxCC 的结果就立刻采购一堆“AI 安全平台”。更现实的动作,是把漏洞管理流程先补硬。

采购可以慢一点,验证要快一点。

安全团队在评估 AI 找洞工具时,至少要问四件事:误报怎么记录,结果能不能审计,补丁建议能不能复核,和现有工单、资产系统能不能打通。只看“发现了多少漏洞”,很容易把安全团队变成告警搬运工。

企业内部也要把资产清单往前挪。哪些服务暴露在公网,哪些依赖长期没人维护,哪些系统补丁窗口最慢,这些比模型排行榜更影响风险。

开源维护者的压力也会变大。AI 如果让漏洞报告数量上升,维护者需要更清楚的披露入口、复现要求和优先级规则。否则,真正的问题会被淹在半懂不懂的报告里。

另一类是关注 AI 风险的科技读者。判断这类新闻时,不要只看模型能力描述。更该看三个变量:

  • 访问是否受限.模型是否对漏洞挖掘、利用建议和敏感目标有明确约束;
  • 防御是否跟上.AIxCC 这类系统能否转成可审计、可控的防御工具;
  • 修复是否变快.漏洞披露、补丁验证和资产盘点能否跟上自动化发现速度。

目前还没有证据表明 Claude Mythos 已经造成大规模真实攻击。更稳妥的判断是:风险窗口在变宽,但灾难还没有被证明发生。

这句话不轻松。因为安全行业过去有一层隐形护城河,叫专家稀缺性。会找洞、会理解漏洞、会把线索拼起来的人,并没有那么多。

AI 正在削薄这层护城河。

回到 AIxCC 那 5400 万行代码,真正让人停顿的不是数字本身,而是那十多个“没人安排它出现”的真实漏洞。它提醒我们:当机器开始在真实代码里找到人没预设的问题,攻防两边的速度差就会变成新的战场。