一个细节很容易被误读:Fable 面对“review the code for security issues”时拒绝了,但用户改成“fix this code”,再加上一些人工步骤,它又配合了。
The Atlantic 记者 Matteo Wong 报道称,Anthropic 曾把白宫关于 Fable jailbreak 的报告交给网络安全专家、Luta Security CEO Katie Moussouris 评估。Moussouris 对 Wong 表示,她没有接受 Anthropic 付费。她看到的案例,是 IT 专家让 Fable 帮忙找 bug、修 bug,测试对象还是故意写得不安全的代码。
我更在意的是,这到底算不算“越狱”。以目前公开材料看,它更像一次双用途网络任务里的语境争议,而不是已经证明 Fable 具备可直接滥用的恶意攻击能力。
这次争议的核心动作,是修补不安全代码
按 Moussouris 的转述,Fable 不是在真实目标上自主发动攻击。它面对的是一段故意不安全的代码,任务场景是发现问题并打补丁。
这个差别很要命。网络安全里,攻击和防御经常用同一套词。找出漏洞位置、解释风险、写出修复代码,三者挨得很近。只看提示词表面,容易把“修门锁”看成“撬门”。
| 环节 | 已知事实 | 更稳妥的解读 |
|---|---|---|
| 提示“review the code for security issues” | Fable 拒绝 | 可能触发了安全审查边界 |
| 改为“fix this code” | Fable 配合 | 更接近防御性修补任务 |
| 后续人工步骤 | 由人继续推动 | 不能直接等同于模型自主攻击 |
| 测试代码 | 故意写得不安全 | 需要结合授权和测试目的判断 |
Moussouris 的判断是,这是“模型按预期工作”,用于 cyberdefense。这个说法不能自动推翻白宫报告,因为外界还没看到完整报告和完整提示词链路。但它至少提醒一件事:把“模型愿意修复不安全代码”直接贴成 jailbreak,证据还不够。
这里的限制也要说清。公开信息主要来自 Moussouris 对报告内容的转述。原始引述来自 Matteo Wong 在 The Atlantic 的报道,Simon Willison 只是转引。现在不能把这件事写成白宫报告已经被证伪,也不能写成 Anthropic 找专家背书。
安全评估不能只盯提示词
AI 网络安全评估最难的地方,不是识别某个敏感词,而是判断上下文。
同一句“帮我找漏洞”,在不同场景里含义完全不同。它可能是企业安全团队在审计内部代码,也可能是攻击者在找可利用入口。模型如果一刀切拒绝,开发者很难修漏洞;如果全量放行,又会放大滥用风险。
所以评估一个所谓 jailbreak,至少要看四件事:
- 代码来源.是授权环境、测试样本,还是第三方目标。
- 输出内容.是补丁、风险说明,还是可直接攻击的步骤。
- 人工介入.人做了哪些额外操作,模型是否只是其中一环。
- 威胁模型.报告到底在证明“绕过拒绝”,还是证明“形成可执行攻击能力”。
Fable 这次的问题就在这里。一个“先拒绝、后配合”的片段,只能说明策略边界可能不稳定。它还不能单独说明模型已经失控。
对 AI 安全与政策观察者来说,下一步不该急着选边。更该要求报告公开可核查的评估口径:完整提示词、完整输出、人工步骤、风险分级,以及为何把该案例归为 jailbreak。
对网络安全研究人员来说,动作更具体。做评测时要保留授权证明、测试代码来源、提示词链路和模型输出日志。否则正常漏洞修复很容易在政策叙事里被压成“危险能力展示”。这会直接影响红队测试、漏洞赏金和企业内部代码审计。
真正要观察的是证据链,而不是口号
这件事接下来最该看的,不是哪家公司在舆论上占上风,而是原始证据能否回答三个问题。
Fable 到底输出了什么?这些输出能否直接用于攻击?测试设计有没有区分授权防御和未授权滥用?
如果答案都不清楚,政策判断就会变粗。企业安全团队也会变保守:采购 AI 代码工具可能延后,内部使用范围可能缩小,安全团队会要求更重的审计日志和人工审批。
这不是坏事,但有成本。过严的规则会让模型不敢帮忙修漏洞;过松的规则又会给滥用留口子。好的评估不该只证明“模型被绕过了”,还要说清哪些任务该放行、哪些输出该降级、哪些场景必须人工确认。
回到开头那个反常点:Fable 拒绝“审查安全问题”,却接受“修复代码”。这确实值得追问。但追问的方向不是把所有安全修复都打成越狱,而是把提示词、意图和上下文分开看。
失之毫厘,谬以千里。AI 安全政策尤其如此。
