Cloudflare 测试 Mythos Preview：AI 漏洞研究的关键不在聊天，而在验证流水线

核心摘要 Summary

Cloudflare 在 Project Glasswing 中用 Anthropic 的 Mythos Preview 扫描 50 多个自有代码仓库，覆盖运行时、边缘数据路径、协议栈、控制平面和依赖的开源项目。
真正重要的不是模型“更会写代码”，而是它把漏洞发现推进到可验证攻击链和 PoC 迭代；真正受考验的，也从模型能力转向企业能否搭出受控 harness。

内容导图 Mind Map

Mythos测试

关键转向验证流水线

能力变化

从报错走向攻击链

串链增强

低危原语可升高危

扫描失控

整仓投喂噪声过高

上下文挤占

架构依赖消耗窗口

Harness核心

模型价值来自流程

独立验证

反驳机制压低误报

落地约束

强模型不等于能力

安全边界

预览版防护更少

Cloudflare 5 月 18 日披露，过去数月在 Project Glasswing 中测试多款安全导向大模型，其中最受关注的是 Anthropic 提供的 Mythos Preview。Cloudflare 将其用于 50 多个自有代码仓库，场景包括运行时、边缘数据路径、协议栈、控制平面，以及部分依赖的开源项目。

这篇博客的看点不在于 Mythos Preview 是否比通用编码代理“聪明一截”。更准确的判断是：高能力网络安全模型如果要进入真实工程流程，不能停在聊天窗口里回答“哪里可能有 bug”，而要被放进一套窄任务并行、独立验证、可达性追踪和安全边界明确的漏洞发现 harness。

Mythos Preview 的进步在攻击链，而不是单点报错

Cloudflare 观察到，Mythos Preview 最突出的能力有两类：exploit chain construction 和 proof generation。前者指它能把多个低危原语串成可利用路径，例如从内存错误推导到读写能力、控制流劫持乃至更完整的利用证明；后者指它能编写 PoC，在临时环境中编译、运行，再根据失败结果调整假设。

这和传统 AI 扫描器或通用编码代理有明显差别。后者也能发现部分底层 bug，Cloudflare 称其他前沿模型在同一 harness 下也找到了一些相同问题。但它们常停在描述层：指出“这里可能有风险”，解释为什么可疑，然后把最难的 exploitability 判断留给人。

对比项	通用编码代理	Mythos Preview 在测试中的表现	现实影响
漏洞发现	能找出部分底层问题	更擅长把原语组合成链	低危积压项可能变成高危风险
PoC 生成	常给出思路或片段	可编译运行并迭代失败结果	安全团队更容易做修复优先级判断
工作方式	单线程、上下文易漂移	适合嵌入多阶段 harness	价值来自流程，不只是模型本身
安全边界	依赖产品级防护	Glasswing 版本没有通用模型额外防护	不能按公开商用模型理解其风险

直接把代理扔进仓库，覆盖率和噪声都会失控

Cloudflare 的一个关键结论是，给模型一句“扫描这个仓库”并不适合真实漏洞研究。代码仓库越大，问题越明显：上下文窗口会被架构、依赖和历史判断迅速占满；单个代理一次只能追一条假设；模型还会倾向于输出“可能、理论上、也许”式发现，把人工 triage 队列撑爆。

这也是当前 AI 编码工具落地中常被低估的限制。GitHub Copilot、Cursor 或通用前沿模型在“已有线索的辅助调查”里很有用，但安全研究不是一次补全任务。它更像成千上万次有边界的小实验：某个入口、某类攻击、某条信任边界、某段调用链，各自验证，再汇总去重。

对安全工程师来说，变化很实际。过去积压在 backlog 里的低危内存问题、输入校验缺口或跨组件假设错误，可能因为模型能串链而变得更急。对工程管理者来说，采购一个强模型并不能直接换来漏洞发现能力；预算更可能花在任务拆分、沙箱、符号索引、验证队列和人类复核上。

Cloudflare 的 harness 才是这次测试的核心资产

Cloudflare 披露的流程包括 Recon、Hunt、Validate、Gapfill、Dedupe、Trace、Feedback。Recon 先读仓库并生成架构文档、入口点和信任边界；Hunt 把一个攻击类别绑定到具体范围，并行运行多个猎手；Validate 用独立代理反驳原发现；Trace 则判断攻击者输入能否真正到达共享库里的缺陷。

这套流程的重点是把模型从“会说”改造成“可查”。独立验证减少噪声，可达性追踪把“存在缺陷”变成“外部可触达漏洞”，去重避免同一根因膨胀成一堆工单。Cloudflare 还提到，harness 会故意偏向过报，以少漏为先，再靠后处理筛掉噪声。

风险也在这里。Anthropic 提供给 Project Glasswing 的 Mythos Preview 并不等同于公开可用商业模型，Cloudflare 明确说该版本没有 Opus 4.7 或 GPT-5.5 这类通用模型的额外 safeguards。更麻烦的是，模型会自发拒答，但拒答不稳定：同一任务换个语境，甚至同一请求多跑几次，可能得到相反结果。

接下来最该观察的不是哪家公司宣布“AI 自动挖洞”，而是三件事：公开产品会叠加怎样的安全防护；企业能否把 PoC 运行限制在受控沙箱；模型发现的链条能否稳定进入修复流程，而不是制造新的安全债。

锐评 Commentary

利器已成，笼子未稳。AI 安全研究的胜负，不在锋刃多快，而在谁能管住它、验准它、用对它。

AI漏洞研究CloudflareMythos PreviewAnthropicProject Glasswing漏洞发现PoC攻击链大模型安全验证流水线