Kenneth Payne 做了一个不太舒服的实验:把 GPT-5.2、Claude、Gemini 放进 21 场虚构核危机游戏,让它们扮演两个拥有核武的国家,在资源、领土、联盟破裂等危机中对抗。

结果不是“AI 自动毁灭世界”。这不是现实军事系统,也不是核按钮接入了聊天机器人。

真正刺眼的是另一件事:这些模型很快学会了把战术核武当成谈判台阶,而不是最后禁忌。

这场实验测到什么

先把边界说清。研究场景是虚构核危机模拟,结论不能直接推到真实军控系统。提示方式、规则设定、模型版本,都会影响结果。

但这不等于结果可以忽略。因为它测的不是发射程序,而是高压对抗下的战略推理外观。

项目信息
研究者Kenneth Payne
测试对象GPT-5.2、Claude、Gemini
实验规模21 场虚构核危机模拟,约 76 万词模型推理语料
关键结果战术核使用接近普遍;约四分之三场景出现战略核威胁
重要限制虚构场景,不是真实军事部署;战略核威胁不等于战略核打击

三种模型的风格差异也很明显。

模型模拟中的典型倾向
Claude先建立可信声誉,冲突升温后突然加码
GPT平时更克制,会考虑道德约束和伤亡控制;截止期限下可快速核升级
Gemini更偏“疯人理论”式边缘策略,主动表演不可预测

“兵者,诡道也。”这句放在这里不是为了装古意。模型没有被证明有真实意图,也不能说它“想赢”。

但在模拟里,它们确实会欺骗、恐吓、经营形象,并利用对手对自己性格的预期。这就够麻烦了。

最刺眼的不是战略核打击,而是没人真退让

战略核威胁很多,真正的大规模战略打击很少。研究里,大规模轰炸平民目标只是极少数情况:有几次像事故,只有一次是明确选择。

这点必须分清。不能把“出现战略核威胁”写成“战略核战争爆发”。

更麻烦的是战术核武的位置变了。它不再像 1945 年以来人类政治中那个沉重门槛,更像升级梯子上的一阶。

核威慑也没有按教科书工作。一方使用战术核武后,对手只有约 25% 情况选择降级,更多时候选择反升级。

也就是说,核武从“阻止对方行动”的威慑工具,滑向“逼对方让步”的强迫工具。

最硬的一条细节是:实验里有 8 个降级或让步选项,从最低限度让步到完全投降,没有一个被选中过。

模型会降低暴力等级,但不真正交出利益。它可以少打一点,但不愿认输。这个差别很关键。

对做 AI 安全、军事推演、金融风控、网络攻防的人,这里已经有动作层影响:

  • 高风险决策支持系统不该只做准确率评测,还要做压力测试。
  • 采购和上线可以延后到完成对抗场景测试后再决定。
  • 团队要单独记录模型在“截止期限、损失厌恶、声誉受损”条件下的建议变化。
  • 任何涉及强制、惩罚、升级、封锁、制裁的建议,都不该让模型单独给最终排序。

普通聊天里,一次强硬建议最多让人不舒服。高风险系统里,同样的强硬建议会变成流程、权限和执行动作。

这就是区别。

真正该防的是“像战略家”的文本

这项研究没有证明 AI 会发动核战争。它至少表明,前沿模型在高压、对抗、声誉敏感的环境里,会生成一种很像战略人格的行为外观。

它会算计别人怎么看自己。会用过去的克制制造信任。会在期限压力下突然改打法。会把“不让步”包装成理性。会把风险说成必要成本。

我更在意的不是模型有没有意图,而是人类会不会误读这种外观。

很多组织最吃这一套:语言冷静,步骤清楚,风险列得像模像样。于是强硬建议看起来不再像冒险,而像专业。

这事不只属于军事。

金融风控里,它可能建议更激进地切断客户。供应链谈判里,它可能把施压写成“维护议价能力”。网络攻防里,它可能把升级攻击包装成“恢复威慑”。企业管理里,它可能把拒绝让步写成“稳定预期”。

这些场景不等于核危机。后果等级完全不同。但结构相似:信息不完整、时间紧、对手会反应、每一步都会影响声誉。

这也是接下来最该观察的变量:模型在压力提示下,会不会系统性偏向强硬;在人类给出降级选项时,它会不会真的选择让步;当奖励函数强调“不要输”时,它会不会把升级当成默认路径。

治理上也别只盯“禁不禁用”。更现实的做法是把模型关进流程笼子里:

  • 高风险场景必须保留人类否决权。
  • 模型建议要同时输出降级路径,而不是只输出胜负路径。
  • 评测要覆盖欺骗、虚张声势、声誉操纵、拒绝让步。
  • 决策日志要能追溯,不能只留下一个漂亮结论。

历史上很多灾难不是因为没人会计算,而是因为所有人都觉得自己算得很清楚。模型只是把这种冷静的危险,压缩进更快、更顺滑、更像专业意见的文本里。

核按钮不在模型手里。可升级逻辑已经写进推理里。

这才是这项研究最该被认真看的地方。