Anthropic 的安全研究工具 Mythos 又把 AI 漏洞挖掘推到台前。Mozilla 称,在 Firefox 150 中有 271 个与 Mythos 相关的漏洞发现。这个数字很漂亮,也很容易被讲成“AI 正在接管浏览器漏洞研究”。
问题在账本。Firefox 150 安全公告里没有一份单独、权威、只属于 Firefox 的 271 项列表。公开能看到的是 CVE、Bugzilla Bug ID、提交记录、Thunderbird 和 ESR 聚合条目混在一起。结论不能跳太快:Mythos 确实有用,但“找到很多 bug”和“稳定产出可武器化浏览器利用链”不是一回事。
271 个漏洞听起来吓人,计量单位并不干净
目前能确定的事实是:Firefox 150 公告里,至少有三个 CVE 明确归功于 Anthropic;同时还有多个聚合型 memory safety CVE,把一长串 Bug ID 打包进同一个安全条目。
最典型的是 CVE-2026-6746,一个 DOM: Core & HTML 里的 use-after-free,明确、具体,也更像传统安全研究会认真看的漏洞。另几个聚合条目,比如 CVE-2026-6784、6785、6786,则分别链接到数十到上百个 Bug ID,合计可达 317 个引用。
但这个 317 不能直接等于 Mozilla 的 271。原因很简单:部分聚合 CVE 同时覆盖 Firefox 150、Thunderbird 150、Firefox ESR、Thunderbird ESR。Bug ID、CVE、提交、漏洞发现,本来就不是同一种单位。
| 项目 | 公开可见情况 | 我的判断 |
|---|---|---|
| Mozilla 说法 | 271 个与 Mythos 相关发现 | 方向可信,明细不可复验 |
| CVE 公告 | 至少 3 个明确归功 Anthropic | 有硬证据,但数量有限 |
| 聚合 memory safety CVE | 多个条目链接大量 Bug ID | 不能当作 Firefox-only 清单 |
| 开发区间统计 | 6115 次提交、3209 个 Bug ID、301 个高危 CVE 相关 Bug | 说明规模,不等于 Mythos 边界 |
这不是吹毛求疵。安全行业吃过太多“数量叙事”的亏。一个 crash、一个边界检查、一个生命周期修复、一个能进 exploit chain 的 UAF,放在宣传页上都可能叫 vulnerability;到了攻击者手里,价值差十万八千里。
防守价值成立,进攻革命还没证出来
对浏览器工程师来说,Mythos 这类工具最现实的价值,是大规模扫出可疑模式:生命周期错误、所有权混乱、竞态、边界检查、IPC 和序列化问题。这些地方确实是浏览器漏洞的老矿区。
这里要给 Anthropic 一个公道评价:如果一个模型能在 Firefox 这种巨型代码库里系统性找出安全债,它已经能替安全团队省时间。防守不是每次都要抓到“神级 0day”。很多时候,提前清掉一批边缘风险,就能让攻击者少一块垫脚石。
但进攻价值的证据弱得多。公开材料没有告诉外界:Mythos 跑了多少 token、多少轮 agent、多少人工筛选、多少重复项、多少只是稳定性修复、多少能变成可靠利用原语。Anthropic 早前提到的“低于 2 万美元”也不是“花 2 万美元买到一个毁灭级漏洞”,而是覆盖约千次 scaffolded runs 和数十个发现的大型搜索过程。
这和 Google 的 Big Sleep 可以放在一起看。Google 已经在公开 issue tracker 中展示过 AI 辅助漏洞发现的结果,但没有把每一次修复都包装成浏览器攻防的胜负手。行业现实是:LLM/agent 做代码审计越来越能干,尤其擅长扫模式;但离顶级真人研究员那种从 bug 到 exploit chain 的连续推理,还有一段没公开证明的距离。
古人说“循名责实”。放在这里,就是别只看 zero-day 这个名头,要看实账:可利用性、攻击面、触发条件、链路位置、人工成本。
受影响的不是普通用户,而是安全团队的预算和流程
普通 Firefox 用户不需要因为 271 这个数字恐慌。它不代表 Firefox 150 里曾经躺着 271 个已证实可利用零日。更合理的理解是:Mozilla 借 AI 工具做了一次较大规模的安全清理,其中一部分很可能有真实安全价值。
真正要做决策的是安全团队和浏览器工程团队。接不接这类工具,不能只问“能找到多少 bug”,要问四件事:误报成本多高,工程师复核要多久,和现有 fuzzing、静态分析、人工审计相比增量在哪里,最后能减少多少高价值漏洞窗口。
接下来最该盯的不是下一次宣传数字,而是一份更干净的对照实验:同一代码库、同一时间窗、Mythos 与其他 LLM/agent、传统 fuzzing、人类审计并排比较;每个发现标注可利用性层级和人工投入。没有这个账本,革命叙事就只能先按营销处理。
浏览器安全从来不是按修复数量算胜负。铁路时代也一样,铺轨里程能证明扩张,不能证明运输效率、事故率和盈利能力。今天的 AI 漏洞挖掘也如此:规模很重要,但规模不是含金量本身。
