AI 找洞进入真实代码：新一代“脚本小子”风险变了

核心摘要 Summary

DARPA AIxCC 的关键事实是：AI 工具在 5400 万行真实代码里，不只找出多数人工植入漏洞，还挖出十多个未植入的真实漏洞。
Claude Mythos 加重了安全圈的担忧，但它不是唯一原因；真正的变化是漏洞发现、理解和组合攻击的门槛在一起下降。
对安全团队来说，重点不是追热点模型，而是补上资产盘点、漏洞排序、补丁验证和披露响应的速度差。

去年 8 月，DARPA 在拉斯维加斯办了 Artificial Intelligence Cyber Challenge，也就是 AIxCC。多支顶级网络安全团队把自己的 AI 找洞系统带到现场，扫描 5400 万行真实软件代码。

这些代码里，DARPA 人工植入了一批漏洞。结果有点反常：参赛系统找出了多数人工漏洞，还发现了十多个 DARPA 没有植入的真实漏洞。

这比单个新模型发布更能说明问题。Anthropic 近期推出的 Claude Mythos 被描述为能在大量软件中发现漏洞，确实让安全圈紧张。但我更在意的是另一件事：AI 找洞能力正在从“专家手里的工具”向更低技能的人群外溢。

问题不只是 AI 会不会找洞。

问题是，谁能用它找洞。

AIxCC 说明能力增强，但别急着当成成熟商用品

AIxCC 的分量，在于测试对象不是玩具项目。5400 万行真实软件代码，已经接近企业和开源项目每天面对的复杂度：依赖多、旧代码多、风格不统一，问题也不总是写在明面上。

几个事实锚点先放清楚：

维度	AIxCC 中的事实	这说明什么
时间地点	去年 8 月，拉斯维加斯	这是 DARPA 组织的公开挑战场景
测试对象	5400 万行真实软件代码	不是小样本演示，复杂度更接近现实
漏洞设置	DARPA 人工植入漏洞	用来衡量 AI 系统的发现能力
额外结果	找到十多个未植入真实漏洞	自动化系统已能发现预期外问题

这组结果至少表明，AI 找洞已经不再只是漂亮 demo。它能在真实代码堆里找到有价值的线索。

但边界也要说清。

比赛环境有目标、有规则、有评估方式。企业系统没有这么干净。真实环境里，安全团队还要处理权限边界、误报、补丁验证、业务停机、版本兼容和责任归属。

AI 能多报出一批疑点，不等于团队能多修完一批漏洞。很多公司的瓶颈不在“有没有扫描工具”，而在“谁判断优先级、谁推动修复、谁承担上线风险”。

所以，AIxCC 不是在告诉我们“AI 安全工具已经全面成熟”。它更像是在提醒：找洞这件事的自动化上限被抬高了，防守流程如果还按旧速度跑，会被拖出时间差。

新一代“脚本小子”不只是复制脚本

“Script kiddie”过去指低技能攻击者。这个词不是说儿童或青少年，而是指不会写 exploit、也不真正理解漏洞原理的人。

他们的典型做法，是复制网上脚本，使用现成工具包，照着教程跑。技术含量不高，但破坏力并不一定低。弱口令、未打补丁系统、暴露在公网的服务，过去一直给这类人留下空间。

AI 让这个群体的能力边界变了。

它不只是递给用户一段现成脚本。更要紧的是，它可能帮助低技能攻击者读懂报错、理解漏洞说明、整理公开信息，并把几个零散结果拼成更清楚的行动判断。

这里不能夸大成“任何人马上都能发动高级攻击”。高级目标仍然需要经验、耐心、环境理解和规避能力。模型访问限制、内容安全策略、成本和目标复杂度，都会形成现实约束。

但低端攻击的门槛确实在下降。

过去的低技能攻击者，常常卡在“看不懂”。现在，AI 可能把一部分“看不懂”变成“能问明白”。这才是风险变化的核心。

过去的低技能攻击者	AI 辅助后的变化	防守方压力
主要复制现成脚本	能更快理解漏洞描述和报错	扫描噪音可能变多
依赖别人打包好的工具	能把多个公开信息串起来	暴露资产更容易被盯上
遇到失败容易停下	能反复询问、调整思路	低水平试探的频率上升
很难判断漏洞价值	更容易理解影响范围	漏洞排序窗口被压缩

历史上，Metasploit 降低了漏洞利用的操作成本，Shodan 降低了暴露资产的发现成本。AI 的不同点在于，它可能同时降低理解成本和组合成本。

这对防守方更麻烦。因为你面对的不是某一个工具，而是一批原本能力不足的人，突然有了“解释器”和“助教”。

安全团队该盯流程，AI 风险读者该盯约束

受影响最直接的，是两类人。

一类是网络安全从业者。对他们来说，眼下不该只追着 Claude Mythos 这一类模型看，也不该因为 AIxCC 的结果就立刻采购一堆“AI 安全平台”。更现实的动作，是把漏洞管理流程先补硬。

采购可以慢一点，验证要快一点。

安全团队在评估 AI 找洞工具时，至少要问四件事：误报怎么记录，结果能不能审计，补丁建议能不能复核，和现有工单、资产系统能不能打通。只看“发现了多少漏洞”，很容易把安全团队变成告警搬运工。

企业内部也要把资产清单往前挪。哪些服务暴露在公网，哪些依赖长期没人维护，哪些系统补丁窗口最慢，这些比模型排行榜更影响风险。

开源维护者的压力也会变大。AI 如果让漏洞报告数量上升，维护者需要更清楚的披露入口、复现要求和优先级规则。否则，真正的问题会被淹在半懂不懂的报告里。

另一类是关注 AI 风险的科技读者。判断这类新闻时，不要只看模型能力描述。更该看三个变量：

访问是否受限.模型是否对漏洞挖掘、利用建议和敏感目标有明确约束；
防御是否跟上.AIxCC 这类系统能否转成可审计、可控的防御工具；
修复是否变快.漏洞披露、补丁验证和资产盘点能否跟上自动化发现速度。

目前还没有证据表明 Claude Mythos 已经造成大规模真实攻击。更稳妥的判断是：风险窗口在变宽，但灾难还没有被证明发生。

这句话不轻松。因为安全行业过去有一层隐形护城河，叫专家稀缺性。会找洞、会理解漏洞、会把线索拼起来的人，并没有那么多。

AI 正在削薄这层护城河。

回到 AIxCC 那 5400 万行代码，真正让人停顿的不是数字本身，而是那十多个“没人安排它出现”的真实漏洞。它提醒我们：当机器开始在真实代码里找到人没预设的问题，攻防两边的速度差就会变成新的战场。

AI 找洞进入真实代码：新一代“脚本小子”风险变了

AI找洞

AIxCC信号

规模真实

能力外溢

理解降本

边界未消失

现实约束

防守重点

漏洞管理

AIxCC 说明能力增强，但别急着当成成熟商用品

新一代“脚本小子”不只是复制脚本

安全团队该盯流程，AI 风险读者该盯约束