美国商务部解除了对Anthropic旗下Claude Fable 5和Mythos 5模型的出口与境内转让限制。Fable 5即刻恢复全球发布,Mythos 5此前已于6月26日向美国机构开放,接下来将扩大到"可信安全合作方"范围。
这不是监管松绑,而是Anthropic用三周时间换来的有条件放行——商务部信函写得很清楚,随时可以重新评估、重新拉闸。真正改变的不是网络安全风险本身,而是前沿AI公司和政府之间的准入关系:以后模型能不能上线,不再只看公司自己的红队测试,还要看政府点不点头。
限制解除:两款模型,两种待遇
6月12日,商务部下令Anthropic关闭美国以外用户对最先进模型的访问,理由是担心中国、俄罗斯等国家利用模型攻击美国电网、银行系统等关键基础设施。Anthropic当时没有按国家分区限流的技术手段,只能一刀切全部关停。
Fable 5和Mythos 5这次拿到的不是同一张通行证。
| 模型 | 开放范围 | 定位 |
|---|---|---|
| Fable 5 | 全球公开发布 | 面向大众的通用产品 |
| Mythos 5 | 美国机构已恢复,逐步扩至Glasswing可信伙伴 | 面向网络安全研究的受控工具 |
两者共享同一底层模型,但Anthropic强调Mythos 5能"找到并利用软件漏洞的能力强于除极少数顶尖安全专家外的所有人",这正是它被单独挑出来管制的原因。Fable 5被认定不具备同等级的独特进攻能力。Glasswing项目是关键变量:它让可信企业的安全研究人员接触Mythos的防御性能力,相当于给最危险的模型开了一条白名单通道,而不是彻底放开。
安全代价:防护越强,误伤越多
触发这轮管制的直接原因,是亚马逊研究人员发现了一种绕过Fable 5安全限制的方法,其中一个案例是模型被诱导写出了演示漏洞利用的代码。Anthropic紧急加固后称,该绕过方法目前已在超过99%的情况下被拦截。
代价是新增的安全分类器会误伤正常用户。Anthropic承认,常规编程和调试请求也可能被误判拦截,一旦触发,请求会自动转发给Opus 4.8处理。对开发者来说,用Fable 5写涉及安全测试、渗透测试相关代码时,可能需要多绕一步,或者干脆换模型。
Anthropic自己也不讳言:做到对jailbreak完全免疫几乎不可能。即便偶有绕过,额外防御层也只能把伤害压到最低,思路更像是不断抬高攻击成本的概率游戏,而不是一次性解决方案。
监管模板:一次危机,长出一套机制
比模型重新上线更值得关注的,是Anthropic借这次危机搭出的常设机制:一支24小时监控jailbreak报告的内部团队,一个面向安全研究者的HackerOne悬赏计划,以及联合亚马逊、微软、谷歌等Glasswing伙伴起草的jailbreak风险分级框架。
该框架用四个维度打分——能力强弱、可执行的攻击任务数量、武器化难度、发现门槛。单一提示词就能触发的jailbreak被标记为最高风险。
对Anthropic而言,这是把一次被动的国家安全危机,转化成了和政府深度绑定的常态化测试关系。往好处说,这是目前AI行业里少见的、真正跑起来的公私协作样本;往坏处说,这也意味着以后每一次模型升级,都可能多一道政府审查的隐性关卡。商务部信函没有回避这一点:美国"保留重新评估并恢复出口限制的权利"。
需要说清楚的是,目前没有证据显示亚马逊发现的绕过方法造成过真实攻击,材料里能确认的只是绕过手段的存在,以及一次漏洞利用代码生成的案例。把这件事说成"网络战已打响"是夸大,说成"AI监管已成熟"同样为时过早。
