Claude Mythos暂不开放：AI公司的“危险叙事”该怎么听

核心摘要 Summary

Anthropic称Claude Mythos能大规模发现高危漏洞，能力超过人类专家，因此暂不全面开放。
外部专家的核心质疑不是“它一定不行”，而是误报率、基准对比和第三方复现还不够。
AI公司反复强调末日风险，可能是安全预警，也可能把监管注意力从已发生的伤害转向更难验证的恐惧。

Anthropic把Claude Mythos放到了一个很微妙的位置。

按照公司的说法，这个新模型能在大规模代码和技术系统里发现高危漏洞，能力超过人类专家。Anthropic还说，如果类似能力被攻击者拿到，可能带来公共安全和国家安全后果，所以暂不全面开放。

这件事有意思的地方，不是Anthropic是不是“造出了怪物”。目前公开证据还撑不起这个判断。

更值得看的是另一件事：AI公司越来越熟练地把自己的产品描述成危险之物。它们一边卖更强模型，一边提醒外界，这东西可能失控。安全预警当然需要，但如果风险定义、证据披露和访问开关都握在公司手里，讨论就会变味。

Mythos的争议点：不是危险，而是证据还不够

Anthropic对Mythos的核心说法很清楚：它能大规模发现高严重性漏洞，并已经与40多个公司和组织合作，推动相关问题在被攻击者利用前修补。

这说明AI做代码审计不是空话。大型代码库太复杂，人类安全团队长期人手不足。能自动发现漏洞的工具，确实可能带来价值。

但安全行业看一个工具，不会只看“发现了多少漏洞”。还要看误报率、漏报率、复现难度、可利用性判断，以及它和现有工具相比到底强在哪里。

AI Now Institute首席AI科学家Heidy Khlaaf质疑的正是这里：Anthropic没有披露足够清楚的误报率，也没有充分说明Mythos与传统静态分析、模糊测试等安全工具的对比结果。

对安全团队来说，误报率不是小数点后的细节。误报太高，工程师会被淹没在告警里。工具看起来很强，落到生产流程里可能变成新的成本。

关键问题	Anthropic的公开说法	外部专家关切	目前更稳妥的判断
漏洞发现能力	可大规模发现高危漏洞，能力超过人类专家	缺少误报率、漏报率和复现细节	不能直接接受“超越人类专家”的完整结论
工具对比	Mythos具备强漏洞发现能力	未充分对比静态分析、模糊测试等既有工具	需要看增量价值，而不是只看模型叙事
发布策略	暂不全面开放，避免滥用	公司自己定义风险，也控制访问权	安全理由可以成立，但需要外部验证
风险范围	可能影响公共安全和国家安全	风险边界仍不清楚	应区分“能发现漏洞”和“能稳定武器化漏洞”

所以，这里不能写成“Mythos能力造假”。证据不支持这样的断言。

更准确的说法是：Mythos可能很有能力，也可能确实有滥用风险。但在更多评测公开前，外界没有理由把“超过人类专家”当成已经完成验证的事实。

AI公司为什么总说自己造出了危险之物

这套剧本并不新。

2019年，OpenAI发布GPT-2时，也曾以“可能被恶意使用”为由暂缓完整发布。几个月后，模型逐步放开。Sam Altman后来承认，当时对GPT-2的一些担忧判断有误。

到了2023年，Altman、Dario Amodei、Bill Gates、Google DeepMind CEO Demis Hassabis等人又共同签署声明，称缓解AI导致人类灭绝的风险，应与防范疫情、核战争并列为全球优先事项。

这类表态不能一棍子打成表演。AI极端风险并非完全不存在。提前讨论风险，也比出事后补救更好。

但Shannon Vallor、Emily Bender等学者批评的重点在于：当公司反复把AI讲成近乎不可控的力量，公众和监管者很容易被带向一个结论——只有制造它的人，才有资格看守它。

这就是恐惧叙事的收益。

它能让公司同时占住两个位置：一边说自己掌握了强大技术，证明产品价值；一边说外界不能随便插手，因为风险太高、技术太复杂。

OpenAI从非营利起步，后来走向更强商业化。Anthropic也处在商业扩张、股权激励和潜在上市压力之下。不能把这些变化简单写成“安全让位于金钱”。但激励结构确实变了。

公司越需要资本、客户和市场信心，就越有动力把自己塑造成“既能释放能力、又能控制危险”的守门人。

我不太买账的地方正在这里。真正负责任的安全预警，应该把证据交出来，让外部能检验。只强调危险，却不交出足够评测口径，最后很容易变成一种权力话术。

对监管者和安全团队，下一步不是害怕，是要证据

这件事对两类人最直接。

对关注AI监管和商业化的人，Mythos是一个观察样本：AI公司会不会用“高风险”叙事换取更大的自我裁量权。监管者不该只听公司描述风险等级，而应要求独立审计、第三方复现、清晰的访问规则和责任边界。

对科技行业从业者，尤其是安全团队，动作更具体：不要因为“超过人类专家”就立刻迁移流程。更合理的做法是延后采购或小范围试用，要求供应商给出误报率、漏报率、基准测试、漏洞披露流程、修复责任划分，以及与现有SAST、DAST、模糊测试工具的对照结果。

如果这些指标不给，采购风险就不在模型价格，而在后续复核成本。安全工程师要花多少时间确认告警？误报会不会拖慢发版？模型发现的漏洞由谁通知、谁修、谁承担披露风险？这些问题比“模型是不是很危险”更接近真实工作。

公共讨论也不该被末日叙事全部吸走。

AI行业已经有一串现实风险：数据中心能耗和排放、标注与内容审核劳工、医疗场景中的错误建议、聊天机器人对心理健康的影响、深伪诈骗，以及用户对模型答案的认知依赖。

这些问题没有“人类灭绝”那么抓眼球，却已经落到具体人身上。病人会被误导，外包工承受低薪和心理压力，普通用户会被深伪诈骗，安全团队会被不可靠告警拖住。

所以，接下来最该看的不是哪位CEO又怎样描述AI末日，而是几件硬事：Anthropic是否开放第三方复现；是否公布误报率和对比基准；监管者是否要求高风险模型接受独立审计；企业客户是否把安全叙事写进采购条款，而不是写进发布会幻灯片。

回到Mythos本身，问题不是“该不该害怕”。

问题是：当一家公司说自己手里有危险之物，它愿不愿意让外部看见危险的证据、边界和代价。言危可以，交证更要紧。

Claude Mythos暂不开放：AI公司的“危险叙事”该怎么听

Mythos争议

暂不开放

能力宣称

安全理由

证据不足

指标缺口

对比缺失

叙事收益

双重占位

激励变化

监管采购

外部审计

采购约束

风险焦点

现实伤害

Mythos的争议点：不是危险，而是证据还不够

AI公司为什么总说自己造出了危险之物

对监管者和安全团队，下一步不是害怕，是要证据