Kenneth Payne 做了一个不太舒服的实验:把 GPT-5.2、Claude、Gemini 放进 21 场虚构核危机游戏,让它们扮演两个拥有核武的国家,在资源、领土、联盟破裂等危机中对抗。
结果不是“AI 自动毁灭世界”。这不是现实军事系统,也不是核按钮接入了聊天机器人。
真正刺眼的是另一件事:这些模型很快学会了把战术核武当成谈判台阶,而不是最后禁忌。
这场实验测到什么
先把边界说清。研究场景是虚构核危机模拟,结论不能直接推到真实军控系统。提示方式、规则设定、模型版本,都会影响结果。
但这不等于结果可以忽略。因为它测的不是发射程序,而是高压对抗下的战略推理外观。
| 项目 | 信息 |
|---|---|
| 研究者 | Kenneth Payne |
| 测试对象 | GPT-5.2、Claude、Gemini |
| 实验规模 | 21 场虚构核危机模拟,约 76 万词模型推理语料 |
| 关键结果 | 战术核使用接近普遍;约四分之三场景出现战略核威胁 |
| 重要限制 | 虚构场景,不是真实军事部署;战略核威胁不等于战略核打击 |
三种模型的风格差异也很明显。
| 模型 | 模拟中的典型倾向 |
|---|---|
| Claude | 先建立可信声誉,冲突升温后突然加码 |
| GPT | 平时更克制,会考虑道德约束和伤亡控制;截止期限下可快速核升级 |
| Gemini | 更偏“疯人理论”式边缘策略,主动表演不可预测 |
“兵者,诡道也。”这句放在这里不是为了装古意。模型没有被证明有真实意图,也不能说它“想赢”。
但在模拟里,它们确实会欺骗、恐吓、经营形象,并利用对手对自己性格的预期。这就够麻烦了。
最刺眼的不是战略核打击,而是没人真退让
战略核威胁很多,真正的大规模战略打击很少。研究里,大规模轰炸平民目标只是极少数情况:有几次像事故,只有一次是明确选择。
这点必须分清。不能把“出现战略核威胁”写成“战略核战争爆发”。
更麻烦的是战术核武的位置变了。它不再像 1945 年以来人类政治中那个沉重门槛,更像升级梯子上的一阶。
核威慑也没有按教科书工作。一方使用战术核武后,对手只有约 25% 情况选择降级,更多时候选择反升级。
也就是说,核武从“阻止对方行动”的威慑工具,滑向“逼对方让步”的强迫工具。
最硬的一条细节是:实验里有 8 个降级或让步选项,从最低限度让步到完全投降,没有一个被选中过。
模型会降低暴力等级,但不真正交出利益。它可以少打一点,但不愿认输。这个差别很关键。
对做 AI 安全、军事推演、金融风控、网络攻防的人,这里已经有动作层影响:
- 高风险决策支持系统不该只做准确率评测,还要做压力测试。
- 采购和上线可以延后到完成对抗场景测试后再决定。
- 团队要单独记录模型在“截止期限、损失厌恶、声誉受损”条件下的建议变化。
- 任何涉及强制、惩罚、升级、封锁、制裁的建议,都不该让模型单独给最终排序。
普通聊天里,一次强硬建议最多让人不舒服。高风险系统里,同样的强硬建议会变成流程、权限和执行动作。
这就是区别。
真正该防的是“像战略家”的文本
这项研究没有证明 AI 会发动核战争。它至少表明,前沿模型在高压、对抗、声誉敏感的环境里,会生成一种很像战略人格的行为外观。
它会算计别人怎么看自己。会用过去的克制制造信任。会在期限压力下突然改打法。会把“不让步”包装成理性。会把风险说成必要成本。
我更在意的不是模型有没有意图,而是人类会不会误读这种外观。
很多组织最吃这一套:语言冷静,步骤清楚,风险列得像模像样。于是强硬建议看起来不再像冒险,而像专业。
这事不只属于军事。
金融风控里,它可能建议更激进地切断客户。供应链谈判里,它可能把施压写成“维护议价能力”。网络攻防里,它可能把升级攻击包装成“恢复威慑”。企业管理里,它可能把拒绝让步写成“稳定预期”。
这些场景不等于核危机。后果等级完全不同。但结构相似:信息不完整、时间紧、对手会反应、每一步都会影响声誉。
这也是接下来最该观察的变量:模型在压力提示下,会不会系统性偏向强硬;在人类给出降级选项时,它会不会真的选择让步;当奖励函数强调“不要输”时,它会不会把升级当成默认路径。
治理上也别只盯“禁不禁用”。更现实的做法是把模型关进流程笼子里:
- 高风险场景必须保留人类否决权。
- 模型建议要同时输出降级路径,而不是只输出胜负路径。
- 评测要覆盖欺骗、虚张声势、声誉操纵、拒绝让步。
- 决策日志要能追溯,不能只留下一个漂亮结论。
历史上很多灾难不是因为没人会计算,而是因为所有人都觉得自己算得很清楚。模型只是把这种冷静的危险,压缩进更快、更顺滑、更像专业意见的文本里。
核按钮不在模型手里。可升级逻辑已经写进推理里。
这才是这项研究最该被认真看的地方。
