Cloudflare 5 月 18 日披露,过去数月在 Project Glasswing 中测试多款安全导向大模型,其中最受关注的是 Anthropic 提供的 Mythos Preview。Cloudflare 将其用于 50 多个自有代码仓库,场景包括运行时、边缘数据路径、协议栈、控制平面,以及部分依赖的开源项目。
这篇博客的看点不在于 Mythos Preview 是否比通用编码代理“聪明一截”。更准确的判断是:高能力网络安全模型如果要进入真实工程流程,不能停在聊天窗口里回答“哪里可能有 bug”,而要被放进一套窄任务并行、独立验证、可达性追踪和安全边界明确的漏洞发现 harness。
Mythos Preview 的进步在攻击链,而不是单点报错
Cloudflare 观察到,Mythos Preview 最突出的能力有两类:exploit chain construction 和 proof generation。前者指它能把多个低危原语串成可利用路径,例如从内存错误推导到读写能力、控制流劫持乃至更完整的利用证明;后者指它能编写 PoC,在临时环境中编译、运行,再根据失败结果调整假设。
这和传统 AI 扫描器或通用编码代理有明显差别。后者也能发现部分底层 bug,Cloudflare 称其他前沿模型在同一 harness 下也找到了一些相同问题。但它们常停在描述层:指出“这里可能有风险”,解释为什么可疑,然后把最难的 exploitability 判断留给人。
| 对比项 | 通用编码代理 | Mythos Preview 在测试中的表现 | 现实影响 |
|---|---|---|---|
| 漏洞发现 | 能找出部分底层问题 | 更擅长把原语组合成链 | 低危积压项可能变成高危风险 |
| PoC 生成 | 常给出思路或片段 | 可编译运行并迭代失败结果 | 安全团队更容易做修复优先级判断 |
| 工作方式 | 单线程、上下文易漂移 | 适合嵌入多阶段 harness | 价值来自流程,不只是模型本身 |
| 安全边界 | 依赖产品级防护 | Glasswing 版本没有通用模型额外防护 | 不能按公开商用模型理解其风险 |
直接把代理扔进仓库,覆盖率和噪声都会失控
Cloudflare 的一个关键结论是,给模型一句“扫描这个仓库”并不适合真实漏洞研究。代码仓库越大,问题越明显:上下文窗口会被架构、依赖和历史判断迅速占满;单个代理一次只能追一条假设;模型还会倾向于输出“可能、理论上、也许”式发现,把人工 triage 队列撑爆。
这也是当前 AI 编码工具落地中常被低估的限制。GitHub Copilot、Cursor 或通用前沿模型在“已有线索的辅助调查”里很有用,但安全研究不是一次补全任务。它更像成千上万次有边界的小实验:某个入口、某类攻击、某条信任边界、某段调用链,各自验证,再汇总去重。
对安全工程师来说,变化很实际。过去积压在 backlog 里的低危内存问题、输入校验缺口或跨组件假设错误,可能因为模型能串链而变得更急。对工程管理者来说,采购一个强模型并不能直接换来漏洞发现能力;预算更可能花在任务拆分、沙箱、符号索引、验证队列和人类复核上。
Cloudflare 的 harness 才是这次测试的核心资产
Cloudflare 披露的流程包括 Recon、Hunt、Validate、Gapfill、Dedupe、Trace、Feedback。Recon 先读仓库并生成架构文档、入口点和信任边界;Hunt 把一个攻击类别绑定到具体范围,并行运行多个猎手;Validate 用独立代理反驳原发现;Trace 则判断攻击者输入能否真正到达共享库里的缺陷。
这套流程的重点是把模型从“会说”改造成“可查”。独立验证减少噪声,可达性追踪把“存在缺陷”变成“外部可触达漏洞”,去重避免同一根因膨胀成一堆工单。Cloudflare 还提到,harness 会故意偏向过报,以少漏为先,再靠后处理筛掉噪声。
风险也在这里。Anthropic 提供给 Project Glasswing 的 Mythos Preview 并不等同于公开可用商业模型,Cloudflare 明确说该版本没有 Opus 4.7 或 GPT-5.5 这类通用模型的额外 safeguards。更麻烦的是,模型会自发拒答,但拒答不稳定:同一任务换个语境,甚至同一请求多跑几次,可能得到相反结果。
接下来最该观察的不是哪家公司宣布“AI 自动挖洞”,而是三件事:公开产品会叠加怎样的安全防护;企业能否把 PoC 运行限制在受控沙箱;模型发现的链条能否稳定进入修复流程,而不是制造新的安全债。
