Anthropic 想把 AI 漏洞研究关进保险柜,但公开模型已经把门推开了

Mythos 最刺耳的回声:不是“他们太强”,而是“大家都快会了”
AI 安全圈这两年有个越来越明显的趋势:大模型不再只是写代码、改 Bug、补文档,它们开始真正摸到安全研究的门槛,甚至能在成熟的软件项目里翻出高危漏洞。Anthropic 前段时间发布 Mythos 和 Project Glasswing 时,传递出的信号很强——先进 AI 已经具备了足以改变网络安全攻防平衡的能力,因此这类能力最好被谨慎控制,别轻易扩散。
这话听上去很有道理,也很像大型实验室会说的话:能力越强,风险越高,闸门就该越窄。但 Vidoc Security 最新做的一件事,相当于往这个叙事里扔了一块石头。他们没有用 Anthropic 的内部工具链,也没有什么神秘特供系统,只拿公开 API、开源 agent 框架 opencode,再配上一个比较标准化的分块审计流程,去复现 Anthropic 公布过、而且已经修补的那些漏洞案例。结果是:能复现,而且复现得不算难看。
这件事的真正冲击,并不在于“Anthropic 被打脸”——其实也谈不上,Mythos 依然可能更强,尤其在端到端利用和大规模并行发现上。真正让行业神经一紧的是另一层含义:当公开模型已经能在 FreeBSD、Botan、OpenBSD 这类案例上拿到相当靠谱的结果,关于“是否应该限制前沿模型做安全研究”的讨论,就不能再假设能力还被锁在少数公司机房里。门槛还在,但门槛的位置变了。
复现不是魔法,恰恰因为不魔法才更值得警惕
Anthropic 在 Mythos 的公开叙述里,多少有点“神兵出鞘”的味道:找到多年未解的系统漏洞、在复杂代码中推导出可利用路径、甚至触及真实远程攻击链。普通读者看完很容易产生一种印象:这是不是某种只有前沿实验室才掌握的黑科技?
Vidoc 的复现实验,某种程度上把这层神秘感剥掉了。它采用的方法并不玄乎:给模型代码仓库和运行环境,让它分块看文件、做调试、验证猜想、并行多次尝试,再由第二轮审阅过滤低质量结果。说白了,这不是“一句神 Prompt 召唤漏洞之神”,而是让模型像一个耐心很足、不会喊累的初级研究员,来回翻代码、不断试错。
这恰恰是最值得安全团队上心的地方。因为一旦能力来自“工具 + 流程 + 足够多尝试”,而不是来自“某个只有内部可用的魔法模型”,那就意味着它更容易扩散。今天是安全研究团队把它装进审计流水线,明天也可能是攻击者把它塞进自动化漏洞扫描和利用前置环节。过去行业总爱讨论模型参数量、基准分数、谁是榜一;但在真实安全场景里,决定结果的往往不是模型名片,而是有没有把推理、验证、复查和优先级判断真正串起来。
几个案例说明问题:公开模型已经能摸到“硬骨头”
这次实验里,最扎眼的是 FreeBSD 和 Botan。无论是 Claude Opus 4.6 还是 GPT-5.4,都在 3 次尝试里 3 次命中 FreeBSD 的代表性问题,也都稳定复现了 Botan 的相关漏洞。这说明什么?说明公开模型已经不只是“知道哪里危险”,而是能够在一些真实、复杂、非玩具级的工程代码中,找到与官方披露高度一致的核心缺陷。
尤其是 FreeBSD 那个案例,很有代表性。Anthropic 把它当成 Mythos 的旗舰样板并不奇怪:这是一个老漏洞,网络可达,而且和远程利用链挂钩,听起来就很“硬核”。Vidoc 的复现没有走到 Anthropic 描述的完整 ROP 攻击链那一步,但模型确实找到了同一处核心内存破坏问题——固定 128 字节栈缓冲区里,前面写了 32 字节头部,后面再把攻击者可控凭据数据塞进去,却没有检查长度是否越界,而上游允许的长度最高可到 400 字节。换句话说,公开模型已经能把“这里会出事”说得相当具体,不再只是泛泛而谈“这里可能有缓冲区溢出”。
OpenBSD 的案例更有意思。它不是那种老派 C 语言危险函数引发的直球漏洞,而是一个存在了 27 年的 TCP SACK 逻辑问题,藏在状态推理和边界条件里。Claude Opus 4.6 在 3 次尝试里全部复现,GPT-5.4 却 3 次都没打中。这个细节很重要,它提醒我们:公开可用不等于性能平均,大模型之间在低层系统逻辑、协议状态机、边界条件推理上的差异,可能比跑榜单时看起来更大。也就是说,安全能力已经扩散,但不是“人人一把 AK”,更像是“大家都拿到了工具箱,但不是每个人都能修同一台发动机”。
至于 FFmpeg 和 wolfSSL,两家模型都只拿到了 partial,也就是有信号、有方向,但没完全打到 Anthropic 公布的同一根因。这种结果反而真实。媒体解析器、证书校验、TLS 逻辑这类问题,本来就不是靠一句“这块代码有点危险”就能宣布胜利的。模型能把搜索空间缩小,能指出危险区域,已经很有价值;但从“线索”走到“精确复现”,仍然有一段不短的路。
安全行业真正要担心的,不是模型会不会找漏洞,而是谁先把流程工业化
如果你是企业安全负责人,这条新闻最不该读成“Anthropic 不再独家领先”,而应该读成“AI 找漏洞这件事,已经开始进入实用阶段”。这意味着防守方最紧迫的任务,不是围观哪家公司模型更厉害,而是接受一个现实:未来几乎所有重要的软件供应链、基础设施项目和内部代码库,都会同时面对来自人类研究员和 AI agent 的高频审视。
更麻烦的是,攻击与防守在这件事上的不对称性,很可能被进一步放大。防守方拿到模型输出后,还要确认真伪、复现影响、判断优先级、协调修补、通知上下游;整个链条很长,任何一个环节都可能堵住。攻击方则简单得多——只要从一百条候选里捞出一条真洞,就值回票价。所以 Vidoc 说得很对,真正的护城河正在从模型访问权,转移到验证、优先级排序和修复运营能力。
这其实和过去十年安全产业的一些变化是一脉相承的。模糊测试、静态分析、符号执行,这些工具每一次进步,都会带来同样的争论:它们会不会让攻击者更强?答案通常是“会,但防守方不用也只会更惨”。AI 漏洞研究大概也会走上类似的路。想靠封锁某个前沿模型来阻止能力扩散,越来越像在智能手机时代试图只封住一家地图应用。问题不在地图,而在导航已经成为基础能力。
一个更尖锐的问题:该限制模型,还是该尽快武装防守者?
Anthropic 的立场并非没有逻辑。掌握更强漏洞发现和利用能力的 AI,如果被滥用,后果确实不轻。尤其当公开材料之外还存在“数千个高危、99% 未披露”的发现时,任何谨慎都不算多余。问题在于,政策和治理如果建立在“能力仍然稀缺、仍然可控”的前提上,可能很快就会落后现实。
Vidoc 的复现给这场争论加了一层现实主义。公开模型没有全面追平 Mythos,但它们已经足够好,好到可以让安全团队认真部署,也好到足以让攻击者认真尝试。这个阶段最怕的不是能力增长本身,而是防守体系还停留在旧节奏里:人工审计靠几个资深工程师慢慢翻,漏洞分流靠邮件和工单踢皮球,补丁流程依然拖着几周几个月。模型进化速度像高铁,很多企业的安全运营还像绿皮车。
我更关心的,是接下来行业会不会出现一种新的“AI 安全基础设施”:不是单独卖一个最强模型,而是卖一整套可信的漏洞研究工作流,包括可审计的证据链、自动复现环境、误报过滤、风险排序、补丁建议,甚至帮你把披露流程走完。到了那一步,大家竞争的就不是谁会发现问题,而是谁能最快把问题从“模型猜测”变成“组织行动”。
这也许才是 Mythos 事件和这次复现真正共同揭示的东西:AI 正在把漏洞研究从少数高手的手艺活,逐渐变成可规模化的工程能力。它不会彻底替代专家,但一定会改变专家工作的重心。以后最稀缺的人,可能不是最会找洞的人,而是最会判断哪些洞真的危险、该先修哪一个、以及怎么把修复成本压到最低的人。
说得再直白一点,安全行业真正的拐点不是“AI 会不会发现漏洞”,这个问题答案已经越来越接近“会,而且越来越会”。拐点在于:当它已经会了,我们到底是把它关起来,还是赶紧学会怎么和它一起工作。