特朗普政府最近做了一件有点反常的事:它和 Google DeepMind、Microsoft、xAI 签了自愿协议,让美国 CAISI 对前沿 AI 模型做发布前后国家安全测试。

CAISI 称,已经完成约 40 项评估,其中包括尚未发布的模型。部分测试还会接触“降低或移除防护”的版本,用来观察模型在国家安全相关场景里的能力和风险。

反常点在这里。

特朗普上任后,曾把拜登时期的 U.S. AI Safety Institute 改名为 Center for AI Standards and Innovation,也就是 CAISI。名字里刻意拿掉了“safety”。现在,政府又回到前沿模型安全评估这条路上。

我更在意的不是姿态变化,而是一个更实际的问题:政府介入前沿 AI 测试,到底是在补上必要的安全监督,还是在给模型发一张新的“准入门槛”?

特朗普为什么又接受政府评估

这次转向的背景,绕不开 Anthropic 的 Claude Mythos。

材料显示,Anthropic 因担心 Claude Mythos 的高级网络安全能力被滥用,限制了发布。这里要说清楚:这不是说 Mythos 已经造成现实攻击,而是企业认为能力风险已经高到需要按下暂停键。

这件事给政策层面递了一个信号:前沿模型的风险,不再只是“会不会胡说八道”。它可能进入漏洞发现、代码生成、网络攻防、生物安全等更敏感的场景。

企业自己当然会做红队和安全测试。但当模型能力接近国家安全议题时,只靠企业一句“我们测过了”,很难让政府采购方、关键行业客户和安全团队放心。

这也是特朗普政府重新接受 CAISI 测试的原因。不是因为“安全”这个词突然变香了,而是治理需求没有消失。

目前几个关键变化可以这样看:

变化已知事实我的判断
机构名称拜登时期 U.S. AI Safety Institute 被改名为 CAISI名义上淡化 safety,实际工作又回到安全评估
企业参与Google DeepMind、Microsoft、xAI 签署自愿测试协议有助建立信任,但不是全面强制监管
测试进展CAISI 称已完成约 40 项评估数量能说明经验积累,不能替代公开标准
政策边界白宫官员称特朗普可能发布行政令,要求高级 AI 系统发布前接受政府测试目前只能说“可能”,不能写成所有前沿模型已被强制审查
触发背景Anthropic 因担心 Claude Mythos 网络安全能力被滥用而限制发布风险阈值上移,但不是现实攻击证据

这张表里最重要的一行,是“政策边界”。

现在的协议仍是自愿性质。可能出现的行政令,也还没有落地。把它说成美国已经建立全面强制性 AI 发布审批制度,会过头。

CAISI 测试有价值,但尺子还没公开

政府做前沿模型测试,不是多余动作。

如果一个模型可能帮助发现漏洞、生成攻击代码,或者在敏感科学问题上降低门槛,外部评估就有意义。尤其是采购方和监管方,需要的不只是模型跑分,还要知道模型在坏场景里能做到什么。

问题是,CAISI 目前还没有公开清晰的测试标准。

“安全”在 AI 里不是一个自动清楚的词。它可能指防止网络滥用,也可能指生物安全风险;可能是能力边界评估,也可能滑向对模型回答的内容审查。

这几种定义,后果完全不同。

“安全”可能指什么测试会看什么风险在哪里
网络安全滥用是否能帮助发现漏洞、生成攻击链、绕过防护标准太宽会影响正常安全研究
生物安全风险是否降低危险知识获取门槛专业能力评估很难,误判成本高
模型越狱与防护移除或降低防护后能力如何释放测试结果若不透明,外部无法判断严重性
政治或内容输出模型对争议问题如何回答容易变成政治化审查

康奈尔大学技术政策学者 Sarah Kreps 的担忧就在这里:技术审查交给政府,有好处,也有副作用。谁执政,谁就可能影响尺度。

这不是抽象担心。

对 AI 企业来说,如果测试标准不透明,发布节奏会被拖住。产品团队不知道哪些能力会触线,合规团队也很难提前准备证据材料。

对企业客户来说,采购动作也会变谨慎。安全、合规、采购团队可能会延后引入高能力模型,或者要求供应商补充三类材料:是否接受过独立评估、覆盖了哪些威胁模型、有没有做过移除防护后的滥用测试。

这会直接影响合同周期。

原本买模型,看价格、上下文长度、工具调用和跑分。现在还要看评估记录、风险文档、供应商能不能解释“通过测试”到底意味着什么。

如果 CAISI 的方法不公开,“通过 CAISI 评估”很容易变成一句营销话术。听起来很硬,细问却没有尺子。

更稳的做法,可能是独立审计

专家还担心 CAISI 的资源和能力。

这里也要把话说准。现有材料不是说 CAISI 无法运作,而是说它相对国际同类机构资金偏少,并被批评投入不足。国会 1 月批准最高 1000 万美元用于扩展 CAISI,但这个量级能覆盖多深的模型测试,还要看后续执行。

前沿模型评估很贵,也很吃人才。

测试网络安全能力,需要懂攻防的人。测试生物安全风险,需要懂相关领域的人。测试模型绕过防护,需要长期红队经验。政府机构很难单靠内部团队吃下全部能力。

所以,更可行的路径可能不是政府直接审每个模型输出,而是建立独立审计机制。

康奈尔大学 Gregory Falco 主张,企业应随时可能被抽查,reckless deployment 要有后果。这个思路的重点,是把压力压回企业内部:红队、风险文档、发布闸门、事故追踪,都要经得起抽查。

这比“政府坐在模型发布口逐条盖章”更现实。

它也能减少两个副作用:一是政府能力不足导致评估低效;二是政府测试被企业包装成官方背书。独立审计至少可以让方法、责任和结果更容易被外部复核。

接下来要盯的不是一句“政府要测试 AI”,而是三个具体变量:

  • CAISI 是否公布测试标准,至少说明覆盖哪些风险类别、用什么威胁模型、结果如何分级。
  • 可能出台的行政令是否只针对高风险前沿模型,还是会扩大到更普通的模型和应用。
  • 评估结果能否被客户、审计方和研究者理解,而不是只留下一个“已评估”的标签。

这三个问题没有答案,政府测试只能提供有限安全感。它也会打开新的权力入口。

美国现在面对的不是“要不要安全测试”这么简单。真正的分水岭,是安全测试能不能有公开尺子、清楚边界和可追责机制。

没有这些,测试越多,未必越安全。也可能只是让模型发布多一道门,而门后是谁在量、按什么量,外面的人看不见。