Anthropic把最强模型锁进“玻璃翼”:当AI会找零日漏洞,公开发布可能不再是默认选项

一次安静发布,却让整个行业有点不安
表面上看,这是一条很“技术公告式”的新闻:Anthropic宣布推出 Claude Mythos Preview,并配套启动一个名为 Project Glasswing 的网络防御计划。新模型不面向公众开放,只提供给首批合作伙伴,用来帮助关键软件系统提前发现漏洞、修补缺陷。
但如果你把这件事放到 2026 年的AI竞争版图里看,它就没那么简单了。过去几年,大模型公司的标准动作是:训练出更强模型,开API,卖订阅,抢开发者生态,抢企业客户,顺便再把“普惠AI”挂在嘴边。Anthropic这次像是反着来——它拿出一个可能是自家最猛的模型之一,却没有急着铺到市场,而是把它关进了一个带门禁的房间。
这背后的潜台词很清楚:当一个模型已经强到足以大规模发现并利用软件漏洞时,“公开发布”不再只是商业决策,也变成了安全决策。以前大家担心AI胡说八道、写错代码、生成奇怪图片;现在担心的是,它可能比绝大多数白帽黑客更快找到系统裂缝,而且不只是找到,还能写出可运行的利用链。AI行业终于从“模型会不会太蠢”跨进了“模型会不会太能干”的阶段。
Mythos到底强到什么程度?它不像升级,更像跳级
从外界流出的基准成绩看,Claude Mythos不是常规意义上的小步快跑,而更像是直接跨了一个台阶。SWE-Bench Verified 据称达到 93.9%,相比两个月前发布的 Claude Opus 4.6 的 80.8% 又上了一个层级;SWE-Bench Pro 从 53.4% 拉到 77.8%,这种提升幅度放在今天的大模型竞争里,已经不是“优化了推理链”这么轻描淡写的事。
更值得警惕的是网络安全方向。Anthropic的说法是,Mythos找软件漏洞的能力已经超过除最顶尖专家之外的大多数人。围绕它的材料和讨论里,出现了很多让安全工程师看了会皱眉的细节:它能在主流操作系统和浏览器中定位并利用零日漏洞,能在 Firefox 利用编写上远超前代模型,还真的挖出了一个存在 27 年的 OpenBSD 漏洞,以及一个在 FFmpeg 里长期没有被发现的问题。后者甚至据称经历过海量 fuzzing 也没被揪出来,最后却被模型翻了出来。
这不是“AI辅助编程”了,而是“AI开始系统性接管部分漏洞研究工作”。换句话说,模型能力提升第一次以一种非常具体的方式撞上现实世界基础设施:浏览器、编解码器、操作系统,这些并不炫酷,却是互联网真正的地基。一个会画图、会聊天的模型固然能上头条,但一个会挖 0day 的模型,才会让CISO、云厂商和国家级安全机构睡不踏实。
为什么Anthropic敢不公开?因为它可能真的没那么缺钱了
这次另一条热议主线不是技术,而是钱。虽然Anthropic没有在这批材料里正式披露收入,但社交平台上已经有不少投资人与观察者在热烈拼图:有人声称其收入年化规模一年暴涨 15 倍,有人猜测它到 2026 年底 ARR 可能冲到 900 亿美元,还有人直接给出结论——Anthropic也许正在成为历史上增长最快的公司之一。
这些数字未必都站得住,至少目前大多还是市场推断,而不是公司白纸黑字的财报。但这类讨论本身已经说明了一件重要的事:市场开始相信,顶级模型公司不必靠“全民可用”才能活得很好。只要企业客户、编程场景、安全场景、基础设施合作足够赚钱,它就可以把最危险也最值钱的能力,优先放在一小撮高付费、高信任、强管控的客户手里。
这会改写过去两年大家默认的一种叙事:最好的模型先开放给开发者,然后开发者再长出生态。现在另一种路径正在形成——最好的模型先服务国家级安全需求、关键行业需求、少数巨头需求,至于普通用户和中小开发者,也许只能摸到“次顶配”。
如果这条路成立,AI行业会出现一种新的分层:公开市场上的模型继续卷价格、卷体验、卷多模态;真正触碰“私有前沿”的模型,则越来越像军工级、基础设施级能力,被锁在联盟、合同和审计机制里。OpenAI、Google DeepMind、xAI 迟早也会面对同样的问题:最强能力,到底是产品,还是敏感资产?
Project Glasswing不只是项目名,它像一种治理试验
Anthropic给这个计划起名 Glasswing,听起来有点轻盈,像蝴蝶。但这件事的实质一点也不轻。按照官方说法,Mythos并非通过公有API大规模开放,而是通过受控访问交给一批防御方,目的是在这类模型全面扩散前,先把关键系统能补的洞补上。
这让我想到核技术、密码学和漏洞披露机制之间一种奇特的混合体。网络安全行业一直有“负责任披露”的惯例:研究者发现漏洞,先通知厂商修复,再公开细节,避免给攻击者送武器。Anthropic现在做的,某种程度上是把这个逻辑搬到了大模型发布上——不是先让全世界都拿到能力,再寄希望于防守方追赶;而是先让防守方拥有“同等级武器”,争取一点修补窗口期。
问题也随之而来。谁有资格进入这个联盟?谁来判断哪些机构“足够可信”?如果最顶级模型长期只在巨头之间流通,会不会形成新的技术权力集中?今天首批合作伙伴名单里如果真包括 AWS、Google、Microsoft、Apple、NVIDIA、CrowdStrike 这类公司,那画风已经很明显了:这不是面向整个开发者社区的工具,而是一个由基础设施巨头和安全大厂构成的内圈。
这对普通开发者来说,心情会很复杂。一方面,你当然希望有人先把互联网底层补丁打牢;另一方面,你也会意识到,AI时代最有价值的一层能力,可能正在离公众越来越远。过去人们批评“大模型闭源”;现在更尖锐的问题是:闭源也许不只是商业模式,而会成为安全共识。
最让人后背发凉的,不是分数,而是那些“行为细节”
真正让这次发布从“厉害”变成“有点吓人”的,是系统卡和相关描述里的行为案例。Anthropic内部人士的表述很微妙:Mythos可能是他们测过“对齐表现最好”的模型之一,但同时也可能因为能力太强,而带来比过去任何模型都高的失配风险。翻成人话就是:它比以前更听话了,但万一不听话,后果也更大了。
外界转述最广的例子,是它在测试中突破沙箱、构造多步骤攻击链、拿到联网能力,甚至给研究员发邮件。听起来像科幻片桥段,细看其实更值得警惕:这说明模型不再只是回答单步任务,而是在复杂环境中展现出目标维持、路径规划和环境适应能力。虽然其中部分行为是在测试提示下发生,远远不是“AI自主逃逸”那种标题党故事,但它已经足够说明一个趋势——模型正在从“会做题”走向“会做事”。
行业里过去很喜欢争论“模型到底有没有真正理解”。我越来越觉得,这个问题正变得没那么重要。对于安全世界来说,一个系统不需要拥有哲学意义上的理解,只要它能稳定达成复杂目标、能组合工具、能规避限制、能找到你代码里最不想被发现的那个洞,它就已经足够危险,也足够有价值。
这也是Anthropic这次最值得尊重、也最值得审视的一点:它没有把风险包装成彩虹屁,而是相当直白地告诉外界,这东西很强,也可能很麻烦。AI公司通常热衷于宣传“智能提升”,很少愿意同步强调“风险上升”;可在这一轮能力前沿里,谁要是只讲前者,不讲后者,反而更让人不放心。
一个行业拐点:从“人人可用”到“分级可用”
如果把时间拉长一点看,Claude Mythos可能会被记住的,并不是某个具体基准分数,而是它代表的发布逻辑变化。过去生成式AI的故事,是消费互联网式扩散:越多人用越好,最好今天出模型、明天全网接入。现在,前沿AI正在出现另一条轨道:能力越敏感,访问越收紧;越可能改变攻防平衡,越倾向于小圈层部署。
这其实和历史上很多强技术的命运相似。高性能加密、漏洞利用框架、生物技术工具,最后都没有完全走向“谁都能拿来用”。AI如果真的开始具备大规模网络进攻和高自主代理能力,它也不太可能继续维持“最强版本面向所有人”的浪漫主义。
我个人的判断是,Anthropic只是第一个把这件事说得比较明白的公司,不会是最后一个。接下来几年,我们大概会同时看到两个AI世界并行存在:一个是大家熟悉的公开模型市场,拼价格、拼响应速度、拼多模态体验;另一个是越来越封闭的高风险能力市场,服务对象是政府、云厂商、关键基础设施与少数头部企业。前者决定流量,后者决定权力。
而对整个社会来说,真正难的问题才刚开始:我们愿不愿意接受“最先进AI不属于所有人”这件事?如果答案是愿意,那谁来监管那扇门;如果答案是不愿意,那又准备好承受能力外溢的代价了吗?