Anthropic把Claude Mythos放到了一个很微妙的位置。

按照公司的说法,这个新模型能在大规模代码和技术系统里发现高危漏洞,能力超过人类专家。Anthropic还说,如果类似能力被攻击者拿到,可能带来公共安全和国家安全后果,所以暂不全面开放。

这件事有意思的地方,不是Anthropic是不是“造出了怪物”。目前公开证据还撑不起这个判断。

更值得看的是另一件事:AI公司越来越熟练地把自己的产品描述成危险之物。它们一边卖更强模型,一边提醒外界,这东西可能失控。安全预警当然需要,但如果风险定义、证据披露和访问开关都握在公司手里,讨论就会变味。

Mythos的争议点:不是危险,而是证据还不够

Anthropic对Mythos的核心说法很清楚:它能大规模发现高严重性漏洞,并已经与40多个公司和组织合作,推动相关问题在被攻击者利用前修补。

这说明AI做代码审计不是空话。大型代码库太复杂,人类安全团队长期人手不足。能自动发现漏洞的工具,确实可能带来价值。

但安全行业看一个工具,不会只看“发现了多少漏洞”。还要看误报率、漏报率、复现难度、可利用性判断,以及它和现有工具相比到底强在哪里。

AI Now Institute首席AI科学家Heidy Khlaaf质疑的正是这里:Anthropic没有披露足够清楚的误报率,也没有充分说明Mythos与传统静态分析、模糊测试等安全工具的对比结果。

对安全团队来说,误报率不是小数点后的细节。误报太高,工程师会被淹没在告警里。工具看起来很强,落到生产流程里可能变成新的成本。

关键问题Anthropic的公开说法外部专家关切目前更稳妥的判断
漏洞发现能力可大规模发现高危漏洞,能力超过人类专家缺少误报率、漏报率和复现细节不能直接接受“超越人类专家”的完整结论
工具对比Mythos具备强漏洞发现能力未充分对比静态分析、模糊测试等既有工具需要看增量价值,而不是只看模型叙事
发布策略暂不全面开放,避免滥用公司自己定义风险,也控制访问权安全理由可以成立,但需要外部验证
风险范围可能影响公共安全和国家安全风险边界仍不清楚应区分“能发现漏洞”和“能稳定武器化漏洞”

所以,这里不能写成“Mythos能力造假”。证据不支持这样的断言。

更准确的说法是:Mythos可能很有能力,也可能确实有滥用风险。但在更多评测公开前,外界没有理由把“超过人类专家”当成已经完成验证的事实。

AI公司为什么总说自己造出了危险之物

这套剧本并不新。

2019年,OpenAI发布GPT-2时,也曾以“可能被恶意使用”为由暂缓完整发布。几个月后,模型逐步放开。Sam Altman后来承认,当时对GPT-2的一些担忧判断有误。

到了2023年,Altman、Dario Amodei、Bill Gates、Google DeepMind CEO Demis Hassabis等人又共同签署声明,称缓解AI导致人类灭绝的风险,应与防范疫情、核战争并列为全球优先事项。

这类表态不能一棍子打成表演。AI极端风险并非完全不存在。提前讨论风险,也比出事后补救更好。

但Shannon Vallor、Emily Bender等学者批评的重点在于:当公司反复把AI讲成近乎不可控的力量,公众和监管者很容易被带向一个结论——只有制造它的人,才有资格看守它。

这就是恐惧叙事的收益。

它能让公司同时占住两个位置:一边说自己掌握了强大技术,证明产品价值;一边说外界不能随便插手,因为风险太高、技术太复杂。

OpenAI从非营利起步,后来走向更强商业化。Anthropic也处在商业扩张、股权激励和潜在上市压力之下。不能把这些变化简单写成“安全让位于金钱”。但激励结构确实变了。

公司越需要资本、客户和市场信心,就越有动力把自己塑造成“既能释放能力、又能控制危险”的守门人。

我不太买账的地方正在这里。真正负责任的安全预警,应该把证据交出来,让外部能检验。只强调危险,却不交出足够评测口径,最后很容易变成一种权力话术。

对监管者和安全团队,下一步不是害怕,是要证据

这件事对两类人最直接。

对关注AI监管和商业化的人,Mythos是一个观察样本:AI公司会不会用“高风险”叙事换取更大的自我裁量权。监管者不该只听公司描述风险等级,而应要求独立审计、第三方复现、清晰的访问规则和责任边界。

对科技行业从业者,尤其是安全团队,动作更具体:不要因为“超过人类专家”就立刻迁移流程。更合理的做法是延后采购或小范围试用,要求供应商给出误报率、漏报率、基准测试、漏洞披露流程、修复责任划分,以及与现有SAST、DAST、模糊测试工具的对照结果。

如果这些指标不给,采购风险就不在模型价格,而在后续复核成本。安全工程师要花多少时间确认告警?误报会不会拖慢发版?模型发现的漏洞由谁通知、谁修、谁承担披露风险?这些问题比“模型是不是很危险”更接近真实工作。

公共讨论也不该被末日叙事全部吸走。

AI行业已经有一串现实风险:数据中心能耗和排放、标注与内容审核劳工、医疗场景中的错误建议、聊天机器人对心理健康的影响、深伪诈骗,以及用户对模型答案的认知依赖。

这些问题没有“人类灭绝”那么抓眼球,却已经落到具体人身上。病人会被误导,外包工承受低薪和心理压力,普通用户会被深伪诈骗,安全团队会被不可靠告警拖住。

所以,接下来最该看的不是哪位CEO又怎样描述AI末日,而是几件硬事:Anthropic是否开放第三方复现;是否公布误报率和对比基准;监管者是否要求高风险模型接受独立审计;企业客户是否把安全叙事写进采购条款,而不是写进发布会幻灯片。

回到Mythos本身,问题不是“该不该害怕”。

问题是:当一家公司说自己手里有危险之物,它愿不愿意让外部看见危险的证据、边界和代价。言危可以,交证更要紧。