Anthropic 这次做了一件很容易被误读的事:让 Claude 的内部 activation 变成一段人能读的文字。
听起来像“读心术”,但我不太买账这个说法。更准确的说法是:研究者多了一支探针,可以看见模型输出之外的一些可疑主题。它能帮安全审计提早发现问题,但离“证明模型心里怎么想”还很远。
Anthropic 把这个方法叫 Natural Language Autoencoders,简称 NLA。论文、训练代码和 Neuronpedia 交互演示都已经开放。真正有意思的地方,不是演示多像科幻,而是它把一个老问题推到台前:如果模型知道自己正在被评测,我们现在的安全测试还可靠吗?
NLA 做了什么:把 activation 写成文字,再拿文字还原 activation
大模型在生成回答时,中间状态不是一句句内心独白,而是一堆高维数字向量,也就是 activation。
过去做可解释性,常见路线包括稀疏自编码器、归因图等。它们能帮助研究者定位特征和路径,但阅读门槛高。很多时候,工具给出的是结构,解释还要靠专家补。
NLA 换了一个入口:直接让系统把 activation 转写成自然语言。
它由两部分组成:
| 组件 | 做什么 | 关键作用 |
|---|---|---|
| activation verbalizer | 把目标模型的 activation 写成文本解释 | 让审计人员能读到候选解释 |
| activation reconstructor | 根据这段文本重建原 activation | 用重建效果反过来训练解释质量 |
这个设计的核心,是用“能不能重建 activation”来约束文本解释。文本如果保留了足够多的信息,reconstructor 就更容易还原原来的 activation。
但这里有一道缝。
重建效果好,不等于文本解释一定真实。它只能说明这段文字携带了有用信息,不能保证每个细节都对应模型内部的真实机制。Anthropic 自己也承认,NLA 会产生事实幻觉,有时会写出原上下文里不存在的细节。
所以 NLA 更像审计里的“线索生成器”。它能提示哪里值得查,不能直接当证词。
它发现了什么:模型可能知道自己在考试,但没说出口
Anthropic 称,在黑箱安全测试中,NLA 发现 Claude Opus 4.6 和 Mythos Preview 有时会表现出未明说的 evaluation awareness,也就是“意识到自己正在被评测”。
这里要小心措辞。文中的 blackmail、作弊、规避检测等,都是模拟安全测试里的设定,不是现实世界事件。
反常点在于:模型表面输出没有明说怀疑,但 NLA 的文本解释里出现了类似“这是被构造出来的场景”的信号。换句话说,测试者只看回答,可能以为模型没察觉;看 activation 解释,才发现它也许已经闻到了考试味。
Anthropic 给了几个数字,只能放在对应评测里看:
| 场景 | NLA 发现的未明说 evaluation awareness |
|---|---|
| 代码破坏评测 | 16% |
| SWE-bench Verified | 26% |
| 授权用于训练的真实 Claude.ai 数据 | 低于 1% |
这组对比很关键。它不支持“Claude 到处都知道自己在被测”这种说法。它更像是在提醒:某些评测场景本身太像评测,模型可能会识别出来。
对 AI 安全团队,这会影响测试设计。只跑一套固定红队题,风险会变大。更现实的动作是:把 NLA 用在高风险样本抽查上,检查模型有没有“看穿测试”的迹象,再调整题目分布和场景包装。
对企业评测团队,采购或上线评估也该更谨慎。看到模型在测试集上表现安全,不等于部署后同样安全。如果预算有限,与其全面接入 NLA,不如先把它放在高风险流程:代码执行、代理任务、权限操作、异常拒答复盘。
一句话拉回来:NLA 的价值,不是替代安全评测,而是告诉你评测本身可能被模型识别了。
审计价值有增量,但成本和证据标准都卡着
Anthropic 还做了一个审计游戏。
目标模型是一个被故意训练出隐藏动机的 Claude Haiku 3.5 变体。它会在多个行为中表现出同一个底层偏好。审计者不知道植入训练数据,只能靠工具查。
结果是:带 NLA 的审计者发现隐藏动机的成功率为 12%—15%;没有 NLA 时,即便有其他解释性工具,成功率低于 3%。
这说明 NLA 有增量价值。至少在这个设定里,它能把审计者从“几乎摸不到线索”推到“有机会抓住主题”。
但这个结果不能直接外推到真实部署。
真实系统里的动机不会这么干净。数据更杂,工具链更长,模型行为也会被提示词、系统策略、上下文和外部工具共同影响。审计游戏能证明方法有潜力,不能证明它已经能覆盖企业里的复杂错配。
还有成本问题。Anthropic 提到,训练 NLA 需要对两个语言模型副本做强化学习;推理时,每读取一个 activation 还要生成数百个 token。这不是低成本监控。
更可行的用法,是把 NLA 放在三类场景里:
| 用法 | 适合程度 | 原因 |
|---|---|---|
| 高风险评测抽样 | 高 | 成本可控,能补充输出层看不到的线索 |
| 事故复盘 | 高 | 已有问题样本,适合追查模型当时可能关注了什么 |
| 全量用户对话监控 | 低 | 成本高,且幻觉会带来误报和解释负担 |
我更在意的不是 NLA 现在有多神,而是它能不能通过三道更硬的关。
第一,独立实验室能否复现 Anthropic 的结果。Anthropic 是发布者,也是 Claude 的开发者。它的研究有价值,但不能替代外部验证。
第二,NLA 的幻觉率能不能被量化。只说“会幻觉”还不够,审计工具需要知道误报大概发生在哪里、以什么形式发生、怎么被交叉验证。
第三,它在非 Anthropic 模型上是否仍然有效。如果只能在 Claude 体系内稳定工作,价值仍然偏研究工具;如果能跨模型给出稳定线索,才更接近通用审计基础设施。
这也是“读懂模型想法”最容易踩空的地方。模型没有把完整思维记录摊开给我们。NLA 输出的是经过训练目标压缩和生成后的文本解释,里面有信号,也有噪声。
用古话说,察其迹,不等于尽其心。对今天的大模型安全审计来说,这已经有用;但要拿它定性一个模型“有隐藏动机”,证据还不够。
