Anthropic 周二发布 Fable,称其为强大网络安全模型 Mythos 的公开且受限版本。这个产品本应让更多人接触 Anthropic 在网络安全场景下的能力,但发布后不久,多名安全研究人员在网上抱怨:Fable 的护栏太敏感,连代码审查、阅读安全博客这类低风险任务也可能被拦截或降级。

这件事真正重要的地方,不是“AI 公司又被吐槽保守”,而是高能力模型进入网络安全领域后,准入机制和产品可用性之间的冲突开始正面暴露。Anthropic 的谨慎有现实理由,恶意软件、软件入侵、生物武器相关滥用都不是纸面风险;但如果护栏主要靠关键词式触发,合法研究人员会先被挡在门外。

Fable 是 Mythos 的公开受限版,争议集中在误拦

Fable 的定位并不是通用聊天模型,而是面向网络安全能力的受限开放版本。Anthropic 此前在 4 月发布 Mythos 时,只通过 Project Glasswing 向少数公司和组织开放,用于保护关键软件和基础设施;上周又把 Mythos 访问范围扩大到 15 个国家的数百家组织。

现在 Fable 面向公众开放,但带着更强护栏。根据研究人员反馈,当提示词触发规则时,Fable 会暂停对话,并提示其“安全措施将该消息标记为网络安全或生物相关主题”。触发后,系统会回退到 Claude Opus 4.8。

项目Anthropic 的做法研究人员反馈影响
Fable 定位Mythos 的公开受限版本期待用于安全分析和代码辅助可触达用户更多,但限制更强
护栏触发网络安全或生物相关内容会暂停对话像关键词匹配,覆盖面过宽低风险任务也可能被误拦
触发后处理回退到 Claude Opus 4.8能力和上下文体验被打断专业工作流不稳定
准入补充Cyber Verification Program获批者限制更少合法研究仍需额外申请

IBM X-Force 研究员 Valentina Palmiotti 表示,Fable 会拒绝任何“沾边网络安全”的请求,甚至包括阅读一篇博客文章。安全行业资深人士 Matt Suiche 对 TechCrunch 称,如果要求模型写安全代码,它可能把这判断为网络安全任务,而不是软件工程最佳实践,从而触发降级。他也承认,在早期发布阶段“宁可多拦一些”有其合理性,但护栏需要演进。

关键不是要不要设限,而是边界能否细分

网络安全是 AI 开放能力里最难拿捏的场景之一。同一段代码,可能是补丁建议,也可能是攻击链的一环;同一个漏洞描述,可能用于修复系统,也可能用于批量入侵。Anthropic 选择先把风险压低,符合它一贯偏保守的安全路线。

问题在于,安全研究不是一个小众玩具场景。企业红队、漏洞研究员、开源维护者、安全产品工程师,日常都会让模型读报告、审代码、解释 CVE、检查配置。若这些请求频繁触发拦截,他们不会因为“安全理念正确”就继续忍受低效工具,实际动作可能是转向门槛更清楚、误伤更少的模型,或重新回到内部工具链。

这里还有一个原文没有展开的限制:公开模型面对的是未知用户,平台很难确认对方意图;但专业安全工作本来就依赖上下文、身份、任务边界。只靠对话里的几个词判断风险,成本低,误伤也高。更成熟的方案应当把用户身份、任务类型、输出颗粒度和审计机制合在一起,而不是把“cybersecurity”这个词本身当成危险信号。

OpenAI 也在走准入路线,接下来要看验证机制是否好用

Anthropic 并非独自面对这个难题。它有 Cyber Verification Program,获批的网络安全专业人士在使用 Claude 做安全工作时限制更少。OpenAI 也有类似的 Trusted Access for Cyber,面向经过验证的网络安全使用场景开放更高风险能力。

这说明行业正在形成一种折中路线:普通用户拿到受限模型,经过验证的研究人员拿到更高权限。这个方向比完全封闭更现实,也比无差别开放更稳妥。但它的成败不在宣传口径,而在三个具体变量:申请流程是否足够快,专业任务是否能稳定完成,误拦申诉是否能被快速修正。

对安全研究人员来说,Fable 目前的价值还不能只看模型能力榜单。真正决定是否接入工作流的,是它能不能稳定处理常见任务:读安全博客、做代码审查、生成修复建议、解释漏洞原理而不越界。Anthropic 若不能把这些低风险任务从高风险请求里拆出来,Fable 会更像一次谨慎的公开试水,而不是安全团队可以立刻依赖的新工具。