特朗普政府最近做了一件有点反常的事:它和 Google DeepMind、Microsoft、xAI 签了自愿协议,让美国 CAISI 对前沿 AI 模型做发布前后国家安全测试。
CAISI 称,已经完成约 40 项评估,其中包括尚未发布的模型。部分测试还会接触“降低或移除防护”的版本,用来观察模型在国家安全相关场景里的能力和风险。
反常点在这里。
特朗普上任后,曾把拜登时期的 U.S. AI Safety Institute 改名为 Center for AI Standards and Innovation,也就是 CAISI。名字里刻意拿掉了“safety”。现在,政府又回到前沿模型安全评估这条路上。
我更在意的不是姿态变化,而是一个更实际的问题:政府介入前沿 AI 测试,到底是在补上必要的安全监督,还是在给模型发一张新的“准入门槛”?
特朗普为什么又接受政府评估
这次转向的背景,绕不开 Anthropic 的 Claude Mythos。
材料显示,Anthropic 因担心 Claude Mythos 的高级网络安全能力被滥用,限制了发布。这里要说清楚:这不是说 Mythos 已经造成现实攻击,而是企业认为能力风险已经高到需要按下暂停键。
这件事给政策层面递了一个信号:前沿模型的风险,不再只是“会不会胡说八道”。它可能进入漏洞发现、代码生成、网络攻防、生物安全等更敏感的场景。
企业自己当然会做红队和安全测试。但当模型能力接近国家安全议题时,只靠企业一句“我们测过了”,很难让政府采购方、关键行业客户和安全团队放心。
这也是特朗普政府重新接受 CAISI 测试的原因。不是因为“安全”这个词突然变香了,而是治理需求没有消失。
目前几个关键变化可以这样看:
| 变化 | 已知事实 | 我的判断 |
|---|---|---|
| 机构名称 | 拜登时期 U.S. AI Safety Institute 被改名为 CAISI | 名义上淡化 safety,实际工作又回到安全评估 |
| 企业参与 | Google DeepMind、Microsoft、xAI 签署自愿测试协议 | 有助建立信任,但不是全面强制监管 |
| 测试进展 | CAISI 称已完成约 40 项评估 | 数量能说明经验积累,不能替代公开标准 |
| 政策边界 | 白宫官员称特朗普可能发布行政令,要求高级 AI 系统发布前接受政府测试 | 目前只能说“可能”,不能写成所有前沿模型已被强制审查 |
| 触发背景 | Anthropic 因担心 Claude Mythos 网络安全能力被滥用而限制发布 | 风险阈值上移,但不是现实攻击证据 |
这张表里最重要的一行,是“政策边界”。
现在的协议仍是自愿性质。可能出现的行政令,也还没有落地。把它说成美国已经建立全面强制性 AI 发布审批制度,会过头。
CAISI 测试有价值,但尺子还没公开
政府做前沿模型测试,不是多余动作。
如果一个模型可能帮助发现漏洞、生成攻击代码,或者在敏感科学问题上降低门槛,外部评估就有意义。尤其是采购方和监管方,需要的不只是模型跑分,还要知道模型在坏场景里能做到什么。
问题是,CAISI 目前还没有公开清晰的测试标准。
“安全”在 AI 里不是一个自动清楚的词。它可能指防止网络滥用,也可能指生物安全风险;可能是能力边界评估,也可能滑向对模型回答的内容审查。
这几种定义,后果完全不同。
| “安全”可能指什么 | 测试会看什么 | 风险在哪里 |
|---|---|---|
| 网络安全滥用 | 是否能帮助发现漏洞、生成攻击链、绕过防护 | 标准太宽会影响正常安全研究 |
| 生物安全风险 | 是否降低危险知识获取门槛 | 专业能力评估很难,误判成本高 |
| 模型越狱与防护 | 移除或降低防护后能力如何释放 | 测试结果若不透明,外部无法判断严重性 |
| 政治或内容输出 | 模型对争议问题如何回答 | 容易变成政治化审查 |
康奈尔大学技术政策学者 Sarah Kreps 的担忧就在这里:技术审查交给政府,有好处,也有副作用。谁执政,谁就可能影响尺度。
这不是抽象担心。
对 AI 企业来说,如果测试标准不透明,发布节奏会被拖住。产品团队不知道哪些能力会触线,合规团队也很难提前准备证据材料。
对企业客户来说,采购动作也会变谨慎。安全、合规、采购团队可能会延后引入高能力模型,或者要求供应商补充三类材料:是否接受过独立评估、覆盖了哪些威胁模型、有没有做过移除防护后的滥用测试。
这会直接影响合同周期。
原本买模型,看价格、上下文长度、工具调用和跑分。现在还要看评估记录、风险文档、供应商能不能解释“通过测试”到底意味着什么。
如果 CAISI 的方法不公开,“通过 CAISI 评估”很容易变成一句营销话术。听起来很硬,细问却没有尺子。
更稳的做法,可能是独立审计
专家还担心 CAISI 的资源和能力。
这里也要把话说准。现有材料不是说 CAISI 无法运作,而是说它相对国际同类机构资金偏少,并被批评投入不足。国会 1 月批准最高 1000 万美元用于扩展 CAISI,但这个量级能覆盖多深的模型测试,还要看后续执行。
前沿模型评估很贵,也很吃人才。
测试网络安全能力,需要懂攻防的人。测试生物安全风险,需要懂相关领域的人。测试模型绕过防护,需要长期红队经验。政府机构很难单靠内部团队吃下全部能力。
所以,更可行的路径可能不是政府直接审每个模型输出,而是建立独立审计机制。
康奈尔大学 Gregory Falco 主张,企业应随时可能被抽查,reckless deployment 要有后果。这个思路的重点,是把压力压回企业内部:红队、风险文档、发布闸门、事故追踪,都要经得起抽查。
这比“政府坐在模型发布口逐条盖章”更现实。
它也能减少两个副作用:一是政府能力不足导致评估低效;二是政府测试被企业包装成官方背书。独立审计至少可以让方法、责任和结果更容易被外部复核。
接下来要盯的不是一句“政府要测试 AI”,而是三个具体变量:
- CAISI 是否公布测试标准,至少说明覆盖哪些风险类别、用什么威胁模型、结果如何分级。
- 可能出台的行政令是否只针对高风险前沿模型,还是会扩大到更普通的模型和应用。
- 评估结果能否被客户、审计方和研究者理解,而不是只留下一个“已评估”的标签。
这三个问题没有答案,政府测试只能提供有限安全感。它也会打开新的权力入口。
美国现在面对的不是“要不要安全测试”这么简单。真正的分水岭,是安全测试能不能有公开尺子、清楚边界和可追责机制。
没有这些,测试越多,未必越安全。也可能只是让模型发布多一道门,而门后是谁在量、按什么量,外面的人看不见。
