Anthropic 想把 AI 漏洞研究关进保险柜，但公开模型已经把门推开了

安全 2026年4月17日

一家安全公司用公开可用的 GPT-5.4 和 Claude Opus 4.6，复现了 Anthropic Mythos 报告中的多类真实漏洞案例，结论很直接：高级 AI 漏洞挖掘能力并不只属于少数实验室。真正的竞争门槛，正在从“谁能用到最强模型”，转向“谁能验证、筛选并修复模型找到的问题”。

Mythos 最刺耳的回声：不是“他们太强”，而是“大家都快会了”

AI 安全圈这两年有个越来越明显的趋势：大模型不再只是写代码、改 Bug、补文档，它们开始真正摸到安全研究的门槛，甚至能在成熟的软件项目里翻出高危漏洞。Anthropic 前段时间发布 Mythos 和 Project Glasswing 时，传递出的信号很强——先进 AI 已经具备了足以改变网络安全攻防平衡的能力，因此这类能力最好被谨慎控制，别轻易扩散。

这话听上去很有道理，也很像大型实验室会说的话：能力越强，风险越高，闸门就该越窄。但 Vidoc Security 最新做的一件事，相当于往这个叙事里扔了一块石头。他们没有用 Anthropic 的内部工具链，也没有什么神秘特供系统，只拿公开 API、开源 agent 框架 opencode，再配上一个比较标准化的分块审计流程，去复现 Anthropic 公布过、而且已经修补的那些漏洞案例。结果是：能复现，而且复现得不算难看。

这件事的真正冲击，并不在于“Anthropic 被打脸”——其实也谈不上，Mythos 依然可能更强，尤其在端到端利用和大规模并行发现上。真正让行业神经一紧的是另一层含义：当公开模型已经能在 FreeBSD、Botan、OpenBSD 这类案例上拿到相当靠谱的结果，关于“是否应该限制前沿模型做安全研究”的讨论，就不能再假设能力还被锁在少数公司机房里。门槛还在，但门槛的位置变了。

复现不是魔法，恰恰因为不魔法才更值得警惕

Anthropic 在 Mythos 的公开叙述里，多少有点“神兵出鞘”的味道：找到多年未解的系统漏洞、在复杂代码中推导出可利用路径、甚至触及真实远程攻击链。普通读者看完很容易产生一种印象：这是不是某种只有前沿实验室才掌握的黑科技？

Vidoc 的复现实验，某种程度上把这层神秘感剥掉了。它采用的方法并不玄乎：给模型代码仓库和运行环境，让它分块看文件、做调试、验证猜想、并行多次尝试，再由第二轮审阅过滤低质量结果。说白了，这不是“一句神 Prompt 召唤漏洞之神”，而是让模型像一个耐心很足、不会喊累的初级研究员，来回翻代码、不断试错。

这恰恰是最值得安全团队上心的地方。因为一旦能力来自“工具 + 流程 + 足够多尝试”，而不是来自“某个只有内部可用的魔法模型”，那就意味着它更容易扩散。今天是安全研究团队把它装进审计流水线，明天也可能是攻击者把它塞进自动化漏洞扫描和利用前置环节。过去行业总爱讨论模型参数量、基准分数、谁是榜一；但在真实安全场景里，决定结果的往往不是模型名片，而是有没有把推理、验证、复查和优先级判断真正串起来。

几个案例说明问题：公开模型已经能摸到“硬骨头”

这次实验里，最扎眼的是 FreeBSD 和 Botan。无论是 Claude Opus 4.6 还是 GPT-5.4，都在 3 次尝试里 3 次命中 FreeBSD 的代表性问题，也都稳定复现了 Botan 的相关漏洞。这说明什么？说明公开模型已经不只是“知道哪里危险”，而是能够在一些真实、复杂、非玩具级的工程代码中，找到与官方披露高度一致的核心缺陷。

尤其是 FreeBSD 那个案例，很有代表性。Anthropic 把它当成 Mythos 的旗舰样板并不奇怪：这是一个老漏洞，网络可达，而且和远程利用链挂钩，听起来就很“硬核”。Vidoc 的复现没有走到 Anthropic 描述的完整 ROP 攻击链那一步，但模型确实找到了同一处核心内存破坏问题——固定 128 字节栈缓冲区里，前面写了 32 字节头部，后面再把攻击者可控凭据数据塞进去，却没有检查长度是否越界，而上游允许的长度最高可到 400 字节。换句话说，公开模型已经能把“这里会出事”说得相当具体，不再只是泛泛而谈“这里可能有缓冲区溢出”。

OpenBSD 的案例更有意思。它不是那种老派 C 语言危险函数引发的直球漏洞，而是一个存在了 27 年的 TCP SACK 逻辑问题，藏在状态推理和边界条件里。Claude Opus 4.6 在 3 次尝试里全部复现，GPT-5.4 却 3 次都没打中。这个细节很重要，它提醒我们：公开可用不等于性能平均，大模型之间在低层系统逻辑、协议状态机、边界条件推理上的差异，可能比跑榜单时看起来更大。也就是说，安全能力已经扩散，但不是“人人一把 AK”，更像是“大家都拿到了工具箱，但不是每个人都能修同一台发动机”。

至于 FFmpeg 和 wolfSSL，两家模型都只拿到了 partial，也就是有信号、有方向，但没完全打到 Anthropic 公布的同一根因。这种结果反而真实。媒体解析器、证书校验、TLS 逻辑这类问题，本来就不是靠一句“这块代码有点危险”就能宣布胜利的。模型能把搜索空间缩小，能指出危险区域，已经很有价值；但从“线索”走到“精确复现”，仍然有一段不短的路。

安全行业真正要担心的，不是模型会不会找漏洞，而是谁先把流程工业化

如果你是企业安全负责人，这条新闻最不该读成“Anthropic 不再独家领先”，而应该读成“AI 找漏洞这件事，已经开始进入实用阶段”。这意味着防守方最紧迫的任务，不是围观哪家公司模型更厉害，而是接受一个现实：未来几乎所有重要的软件供应链、基础设施项目和内部代码库，都会同时面对来自人类研究员和 AI agent 的高频审视。

更麻烦的是，攻击与防守在这件事上的不对称性，很可能被进一步放大。防守方拿到模型输出后，还要确认真伪、复现影响、判断优先级、协调修补、通知上下游；整个链条很长，任何一个环节都可能堵住。攻击方则简单得多——只要从一百条候选里捞出一条真洞，就值回票价。所以 Vidoc 说得很对，真正的护城河正在从模型访问权，转移到验证、优先级排序和修复运营能力。

这其实和过去十年安全产业的一些变化是一脉相承的。模糊测试、静态分析、符号执行，这些工具每一次进步，都会带来同样的争论：它们会不会让攻击者更强？答案通常是“会，但防守方不用也只会更惨”。AI 漏洞研究大概也会走上类似的路。想靠封锁某个前沿模型来阻止能力扩散，越来越像在智能手机时代试图只封住一家地图应用。问题不在地图，而在导航已经成为基础能力。

一个更尖锐的问题：该限制模型，还是该尽快武装防守者？

Anthropic 的立场并非没有逻辑。掌握更强漏洞发现和利用能力的 AI，如果被滥用，后果确实不轻。尤其当公开材料之外还存在“数千个高危、99% 未披露”的发现时，任何谨慎都不算多余。问题在于，政策和治理如果建立在“能力仍然稀缺、仍然可控”的前提上，可能很快就会落后现实。

Vidoc 的复现给这场争论加了一层现实主义。公开模型没有全面追平 Mythos，但它们已经足够好，好到可以让安全团队认真部署，也好到足以让攻击者认真尝试。这个阶段最怕的不是能力增长本身，而是防守体系还停留在旧节奏里：人工审计靠几个资深工程师慢慢翻，漏洞分流靠邮件和工单踢皮球，补丁流程依然拖着几周几个月。模型进化速度像高铁，很多企业的安全运营还像绿皮车。

我更关心的，是接下来行业会不会出现一种新的“AI 安全基础设施”：不是单独卖一个最强模型，而是卖一整套可信的漏洞研究工作流，包括可审计的证据链、自动复现环境、误报过滤、风险排序、补丁建议，甚至帮你把披露流程走完。到了那一步，大家竞争的就不是谁会发现问题，而是谁能最快把问题从“模型猜测”变成“组织行动”。

这也许才是 Mythos 事件和这次复现真正共同揭示的东西：AI 正在把漏洞研究从少数高手的手艺活，逐渐变成可规模化的工程能力。它不会彻底替代专家，但一定会改变专家工作的重心。以后最稀缺的人，可能不是最会找洞的人，而是最会判断哪些洞真的危险、该先修哪一个、以及怎么把修复成本压到最低的人。

说得再直白一点，安全行业真正的拐点不是“AI 会不会发现漏洞”，这个问题答案已经越来越接近“会，而且越来越会”。拐点在于：当它已经会了，我们到底是把它关起来，还是赶紧学会怎么和它一起工作。

Summary: 我的判断是，Anthropic 想强调的风险并没有错，但“靠限制少数前沿模型来延缓安全能力扩散”这条路，正在迅速失去现实基础。公开模型已经证明自己能在真实漏洞研究中发挥作用，行业接下来拼的不是谁先造出下一个 Mythos，而是谁先把验证、修复和响应流程升级到 AI 时代。如果企业安全团队还把这件事当成实验室新闻来看，未来很可能会被现实补上一课。

AI漏洞挖掘Anthropic网络安全MythosVidoc SecurityGPT-5.4Claude Opus 4.6公开模型漏洞复现opencode