Google 扩大 CodeMender 外部测试：AI 网络安全开始变成大模型公司的硬生意

核心摘要 Summary

Google 在 I/O 2026 扩大 CodeMender 外部可用性，并邀请部分专家测试 API，但它还不是全面公开产品。
它对标的是 Anthropic 的 Claude Mythos Preview，说明大模型公司正在把网络安全推向政府和企业采购场景。
企业真正该看的不是宣传里的自动修漏洞，而是测试边界、补丁质量、审计记录和责任归属。

Google 在 I/O 2026 上把 CodeMender 往外推了一步：邀请部分专家测试 API，并扩大外部可用性。

这款工具去年 10 月首次亮相。Google 现在给它的定位很明确：代码安全 AI 代理。它不只标记漏洞，还尝试给出修复方案。

有意思的地方在这里。CodeMender 还没有全面公开发布，Google 却已经把它放到政府和企业系统审计的语境里讲。它瞄准的不是普通开发者尝鲜，而是更难、更贵、也更敏感的安全预算。

CodeMender 现在能说明什么，不能说明什么

Google DeepMind CTO Koray Kavukcuoglu 的表述是，CodeMender 要帮助保护全球代码库。

这句话听起来很大，但当前事实要收窄看：选择性专家测试 API，扩大外部可用性。不是所有开发者都能直接拿来用，也不能据此判断它已经进入成熟商业化阶段。

安全工具和一般开发工具不一样。

代码补全错了，工程师改一下。安全补丁错了，可能引入新漏洞；漏洞漏掉了，可能留下真实攻击面；误报太多，安全团队会被拖进噪音里。

所以 CodeMender 真正要过的关，不是能不能生成一段补丁，而是能不能在高风险代码库里稳定工作。

对比项	Google CodeMender	Anthropic Claude Mythos Preview	OpenAI 类似方向
当前状态	I/O 2026 扩大外部可用性，邀请部分专家测试 API	Preview 叙事带动市场注意	已跟进网络安全产品方向
核心卖点	标记并修复代码漏洞	面向高风险安全任务，强调能力强	用大模型辅助网络安全任务
主要客户想象	政府、大企业、关键系统审计	银行、政府机构等早期用户	企业安全与开发流程
现实限制	测试范围、准确率、部署方式仍不清楚	能力强弱主要来自公司发布和市场反应，缺少独立验证	产品深度和真实使用效果还要看案例

Google 已经与政府和企业讨论用 CodeMender 审计系统。这个信号比产品口号更重要。

如果客户是大型组织，采购问题就会变成四个字：可控可追。模型发现了什么、为什么这样修、谁批准上线、出了问题谁负责，都要留下证据。

Mythos 把安全场景推到了商业化前台

Anthropic 的 Claude Mythos Preview 给行业加了一把火。

它被包装成一款强到不宜公开发布的网络安全模型，并吸引银行、政府机构等早期用户。这里要谨慎：这些表述主要来自 Anthropic 的发布和市场反应，不能直接等同于独立验证后的能力结论。

但市场为什么吃这一套，并不难理解。

大模型公司过去常讲写作、编程、客服、搜索。网络安全不一样，它天然贴近预算、合规和风险。企业不是为了新奇买单，而是为了少出事故、少花人力、缩短审计周期。

Google CEO Sundar Pichai 也承认，Mythos 证明了大型模型在安全用例中的价值，并表示 Google 也有能力做到。

这句话透露出竞争焦点的变化：大模型不再只比谁会聊天、谁会写代码，而是开始比谁能进入企业的高价值流程。

对关注 AI 商业化的人，这意味着一个判断口径要变：不要只看模型榜单和发布会热词，要看它有没有进入安全审计、漏洞修复、合规检查这类刚性流程。

对企业安全和开发工具负责人，动作更具体：不要急着替换现有安全团队，可以先把这类工具放进辅助审计环节。先做离线测试，再看误报率、漏报率、补丁可读性和回滚成本。

买不买，先不急。先让工具在历史漏洞、内部代码样本和现有扫描器结果上对跑一轮。

企业会试，但不会把安全交给模型

最可能先受影响的是两类人：CISO 和开发平台负责人。

一个银行核心系统要做代码审计，过去通常依靠人工审查、静态分析工具和外部安全顾问。如果 CodeMender 这类工具能提前筛出高风险片段，并生成可读补丁，审计周期可能缩短。

但它不会直接替代安全团队。

网络安全的难点不只在发现漏洞。还要判断业务上下文、攻击路径、补丁副作用、上线窗口和回滚方案。模型可以给建议，但最后要有人负责。

企业评估这类工具，至少要盯住几件事：

观察点	为什么重要	现在的状态
测试范围	决定结论能不能外推到真实系统	Google 只说选择性专家测试 API
部署方式	涉及代码、权限和数据边界	公开信息仍有限
漏洞发现质量	误报和漏报都会增加成本	需要可复现案例
补丁质量	修错比不修更危险	需要人工复核和回滚机制
审计记录	政府和企业采购必须能追责	需要产品层面说明

这里的现实约束很硬。

如果 CodeMender 只能在演示代码里修漏洞，它就是好看的模型能力展示。如果它能在真实大型代码库里稳定给出证据链、补丁和审计记录，它才有机会进入企业安全预算。

OpenAI 也已跟进类似网络安全产品方向，说明这不是 Google 和 Anthropic 的单点竞争。大模型公司都在找更高价值的落地场景，安全正好具备三个条件：问题明确、客户有钱、风险足够痛。

回到开头，CodeMender 这次不是全面发布，而是向外部测试再迈一步。

但这一小步已经说明一件事：AI 网络安全正在从发布会上的能力展示，走向政府和企业的采购评估表。真正的门槛也在那张表上，不在口号里。

Google 扩大 CodeMender 外部测试：AI 网络安全开始变成大模型公司的硬生意

AI安全落地

外测推进

非全面发布

商业前台

对标Mythos

企业门槛

质量验证

使用边界

离线测试

CodeMender 现在能说明什么，不能说明什么

Mythos 把安全场景推到了商业化前台

企业会试，但不会把安全交给模型