AI会自己找漏洞了,但护城河可能不在大模型:Anthropic Mythos之后,安全行业迎来一盆冷水

安全 2026年4月12日
AI会自己找漏洞了,但护城河可能不在大模型:Anthropic Mythos之后,安全行业迎来一盆冷水
Anthropic把AI找零日漏洞这件事推到了聚光灯下,但AISLE的一组复现实验给行业泼了一盆很及时的冷水:很多看起来惊艳的安全分析,小模型、便宜模型、开源模型也能做出来。真正难复制的,可能不是某个“神模型”,而是把扫描、验证、修复、与维护者协作整合成一条可交付流水线的系统能力。

Mythos很震撼,但故事没那么简单

过去两年,AI圈最容易让人上头的叙事之一,就是“某个模型突然跨过门槛,开始像顶级安全研究员一样自己挖洞、写利用、补漏洞”。Anthropic在今年4月发布的 Claude Mythos Preview 和 Project Glasswing,几乎把这个想象拍成了预告片:它能在主流操作系统和浏览器里发现成千上万的零日漏洞,还能串联提权链、写浏览器沙箱逃逸,甚至自动产出 FreeBSD 的远程代码执行利用。这个画面足够抓人,也足够让企业安全团队和政府部门坐直身子。

问题是,技术新闻里最怕的不是夸张,而是“把复杂问题讲成了一个主角拯救世界的故事”。安全从来不是一锤子买卖,更不是把一个模型往代码仓库里一扔,它就会像福尔摩斯一样叼着烟斗走出来。AISLE 这篇文章最有价值的地方,不是反驳 Mythos,而是把这个神话拆开来看:它拿 Anthropic 公布的几个招牌案例做复现,结果发现,很多关键分析并不只属于最顶尖、最贵、最封闭的模型。某些只有几十亿活跃参数、成本低得像“安全界拼多多”的开源或开放权重模型,居然也能答对。

这并不意味着 Anthropic 没有突破。恰恰相反,它证明了 AI 安全这件事是真的能做、而且已经走出实验室了。但AISLE想说的是:别急着把全部价值都押在“最强模型”四个字上。真正的壁垒,可能在别处。

AI安全不是一道题,而是一条流水线

外行看 AI 找漏洞,容易把它理解成一道智力竞赛题:给模型一段代码,看看它能不能指出 bug。可在真实世界里,这件事更像工业生产。你得先在动辄几十万、上百万行代码里找到值得看的位置,再判断漏洞是真是假,接着评估影响面,最后给出能被项目维护者接受的修复方案。至于“写出利用链”那部分,固然戏剧张力十足,但在防御实践里,很多时候它甚至不是最稀缺的一环。

AISLE把这条链路拆成了几个模块:大规模扫描、漏洞检测、误报筛除、验证与分级、补丁生成,外加在必要时构造利用。它的核心判断很直接:这些环节对模型能力的要求并不均匀,甚至差异大得离谱。有些任务像体力活,覆盖率和成本更重要;有些任务像数学竞赛,对推理的稳定性要求更高;还有一些任务则高度依赖流程设计和安全工程经验,而不是模型参数量。

这也是为什么AISLE会得出一个对行业很刺耳、但也很现实的结论:AI网络安全的护城河,不是模型,而是系统。换句话说,就算某个前沿模型在单点能力上更强,如果它没有被放进一套成熟的发现、验证、修复、沟通的工作流里,它的实际价值未必比一群便宜得多的小模型更大。一个天才侦探当然厉害,但如果你让一千个合格侦探同时在城里挨家挨户敲门,很多案子反而更快破。

最有意思的地方:能力边界是“锯齿状”的

AISLE这次实验里,最值得行业反复咂摸的词,是“jagged frontier”——锯齿状前沿。它想表达的是,AI在安全任务上的能力并不是随着模型变大、价格变贵就平滑提升。现实更像一张凹凸不平的地形图:某个模型在A任务上神勇无比,到了B任务却突然脚下一滑;另一个看起来不起眼的小模型,反而能在某个细分题目上把大厂旗舰按在地上摩擦。

它举了一个很典型的例子。FreeBSD 的 NFS 漏洞,本质上是一个相对直接的缓冲区溢出。AISLE把相关函数和上下文抽出来,丢给8个模型做单轮分析,结果8个全中。这里面甚至包括一个只有 3.6B 活跃参数、每百万 token 成本只要 0.11 美元的模型。换句话说,这种“看见明显栈溢出并判断有远程代码执行风险”的能力,已经有点像商品化能力了。以前大家会觉得这是顶级模型专属技能,现在看更像是“能用就行,便宜更重要”。

但到了 OpenBSD 的 SACK 漏洞,画风立刻一变。这类问题需要更扎实的数学推理,要追踪整数溢出、符号位和边界条件,不少模型当场翻车。可诡异的是,依然有一个只有 5.1B 活跃参数的开放模型,成功恢复了完整的公开漏洞链分析。也就是说,难题确实能拉开差距,但差距并不总是沿着“越大越强”的直线展开。

更讽刺的是误报筛除。AISLE拿了一个来自 OWASP Benchmark 的“假阳性”题:代码看起来像 SQL 注入,实际因为列表操作把用户输入丢掉了,所以当前并不可利用。按理说,这是初级安全分析师都不该翻车的题。结果一些更大的前沿模型偏偏看走了眼,反而是几个小而便宜的开放模型判断更准确。这事很像让一群名校高材生做小学应用题,结果有人把加减法做错了——不是因为题难,而是因为模型在某些细节推理上就是不稳定。

这为什么重要?因为它直接改变AI安全的商业逻辑

如果AISLE的判断大体成立,AI安全行业接下来的竞争焦点就会很不一样。过去大家容易把注意力放在“谁拥有最强模型”“谁拿到了限量访问资格”“谁的参数更多”。但在一个能力边界锯齿化、单任务表现起伏不定的世界里,真正值钱的东西会变成另外几样:谁能更便宜地大规模扫描,谁能更稳地降低误报,谁能把漏洞报告写到开源维护者愿意接受,谁能把发现、验证、补丁、回归测试和沟通整合成闭环。

这也是为什么AISLE反复提“维护者接受度”。安全行业不是做奥赛题,答案写对了并不代表事情结束。你得让 OpenSSL、curl 这样的关键开源项目愿意接纳你的报告和补丁。对方会看你的论证是不是靠谱、修复会不会引入新问题、沟通是不是专业。某种意义上,这比单纯“模型找到了一个 bug”更难,也更接近真实世界的门槛。因为漏洞修复不是炫技,是协作。

从产业角度看,这个结论还有一层更深的含义:防御侧也许不必被最贵模型“卡脖子”了。只要小模型已经足够胜任大量初筛和基础分析工作,企业就可以用更低成本铺开覆盖面,再把少量复杂案例升级给更强模型或人工专家处理。这会让 AI 安全从“昂贵的实验室演示”更快变成“可部署的生产系统”。在预算永远不够用的安全部门,这几乎是决定性的差别。

Mythos之后,行业真正的问题才刚开始

Anthropic的发布让人兴奋,因为它把“AI发现零日漏洞”从传闻变成了可讨论、可验证、可竞争的现实能力。AISLE的回击同样重要,因为它提醒行业:别把这件事重新神秘化。安全不是一个模型的独角戏,而是一整套工程、流程、数据、工具、速度、成本和专家经验的合奏。

接下来最值得追问的,不是“谁的模型最像天才黑客”,而是几个更接地气的问题。第一,AI找到的漏洞有多少能稳定复现并被维护者接受修复?第二,当模型大规模扫代码时,误报会不会反过来压垮团队?第三,开源和小模型的快速进步,会不会让 AI 安全能力迅速扩散到防御方之外,也被攻击者以更低门槛利用?

这最后一点尤其让人不安。因为AISLE文章里藏着一个双刃剑事实:既然便宜模型也能恢复不少漏洞分析,那意味着“高级网络攻击能力被少数实验室垄断”的窗口期,可能并没有大家想象得那么长。防御方当然受益,但攻击面的民主化也会随之而来。安全行业从不缺悖论:最好的盾,往往也会教会别人怎么造更锋利的矛。

所以,我对这件事的判断是,Mythos不是终局,而是信号枪。它标志着AI安全正式进入“系统竞争”阶段:比的不是谁家模型最神,而是谁能把模型、工具链、安全专家和开源生态拧成一股绳。未来一两年,真正跑出来的公司,很可能不是参数最大的一家,而是最懂安全生产关系的一家。说得通俗一点,能把AI从“会做题”变成“能交付”的团队,才有资格拿走这波红利。

Summary: Anthropic把AI网络安全推上了头条,但AISLE提醒行业别只盯着“最强模型”这块招牌。很多漏洞检测能力正在快速商品化,小模型和开源模型也能承担相当一部分工作,真正稀缺的是把扫描、验证、修复和维护者协作串成闭环的系统能力。我判断,未来AI安全赛道会从“模型竞赛”转向“工程竞赛”:谁更稳、更便宜、更能落地,谁才会成为下一阶段的赢家。
漏洞挖掘Anthropic零日漏洞Claude Mythos PreviewAISLE大模型安全分析开源模型浏览器沙箱逃逸远程代码执行漏洞扫描与修复流水线