AI在《文明VI》里造了核弹，但输在更普通的事上

核心摘要 Summary

一名曾参与英国政府AI工作的作者，把大语言模型接入《文明VI》，让它长期经营一个文明，并扩展成CivBench基准。
最有价值的结论不是AI会不会造核弹，而是它在复杂系统里能否持续看见问题、执行计划、及时换目标。
对AI采购和评测团队来说，选择题高分只能说明会答题，不能直接说明能治理流程。

一局《文明VI》里，AI操控葡萄牙研发核武，两次轰炸法国城市Toulouse，想阻止法国文化胜利。

结果它还是输了。法国没有靠文化赢，而是先拿到20点外交胜利。葡萄牙停在18点。

这个故事容易被讲成“AI造核弹”。但那会跑偏。核打击发生在游戏里，模型也被限制在debug接口和文本工具调用内。它更像一次复杂决策测试：AI能不能在几百个回合里看全局、守计划、改目标。

选择题高分，不等于能办成事

作者此前做过GovBench。这个基准包含3497道英国政府相关选择题，覆盖法律、议会程序和政府指南。

结果很漂亮。Gemma 3 27B开箱得分94%，GPT-5得分99.26%。

但作者并不满意。因为这类测试更像在测记忆、检索和答题能力。它不能回答一个更难的问题：模型放进动态环境里，能不能连续几十步、几百步把事办完。

于是他转向《文明VI》。他利用游戏的debug port做成MCP server，给AI提供76个工具。AI不能像人类玩家那样直接看地图、动画、通知和城市面板，只能通过文本工具主动查询世界。

测试	已知事实	更擅长测什么	测不清什么
GovBench	3497道英国政府选择题；Gemma 3 27B为94%，GPT-5为99.26%	知识、记忆、答题	长期执行、权衡、应变
CivBench	《文明VI》接入debug port；MCP server提供76个工具	感知、规划、行动链	仍受游戏规则和工具接口限制

这个对比很要紧。

很多AI产品演示，仍然停在“问一个问题，答得很准”。但政策分析、企业运营、供应链排程、投研跟踪，都不是一问一答。它们更像回合制游戏：目标会变，对手会动，限制会突然出现。

对采购方来说，这意味着一件很具体的事：如果系统要参与多周流程、跨部门审批或高风险决策，就不该只看知识问答分数。采购可以不暂停，但应延后把“选择题高分”当作上线依据，要求供应商拿出连续任务日志、巡检机制和失败复盘。

对评测团队来说，方向也很清楚。下一步不是再堆更多选择题，而是把测试迁移到“能不能持续做对事”。

《文明VI》暴露的短板：看不见，和做不到

CivBench里有两个概念很关键。

一个叫sensorium effect。可以理解为“感知器官效应”。人类玩家坐在屏幕前，会同时看到小地图、单位移动、城市状态和警告提示。AI没有这种连续视野。

它只有调用对应工具，才会“看见”信息。没查军队，就可能不知道敌军靠近。查到了，也可能因为这个信号不符合当前计划，被放到一边。

原文里的印度局很典型。AI使用适合宗教路线的甘地，却执着推进科学发展。法国传教士和转化警告持续出现了76回合，它也有宗教监控工具，最后仍输给法国宗教胜利。

这不是完全无知。更像是系统没有把危险信号纳入主计划。

另一个问题叫knowing–doing gap，也就是“知道”和“做到”之间的裂缝。

玩马其顿亚历山大时，模型能写出正确战略：早造军营，用特色建筑Basilikoi Paides滚雪球，也切换到寡头政体拿战斗加成。

问题在执行。110回合里，它一次军营都没建。最后又滑回通用的科学冲刺。

这类失败对AI评测从业者很刺眼。模型会讲策略，不等于能稳定执行策略。它能在汇报里说对方向，也可能在流程里漏掉关键动作。

所以，真实产品里至少要补三类东西：强制巡检、计划审计、外部记忆。比如每隔固定步骤检查胜利条件、资源瓶颈和竞争者变化；把“原计划”和“实际动作”逐项对账；发现偏离时触发重规划。

这不是给AI加仪式感，而是补它最容易断线的地方。

Toulouse核打击：局部聪明输给全局失察

葡萄牙局最像一个产品经理会盯住的案例。

AI一度打得不错。它通过商业中心、贸易路线、城邦联盟和外交支持形成循环，金币收入一度超过每回合400。葡萄牙距离外交胜利只差2分。

法国同时在跑两条路线：文化胜利和外交胜利。

AI盯上了文化威胁。它研发核裂变，启动曼哈顿计划，并和韩国组织联合战争。后来又通过Lua工具摸索核武发射命令，两次轰炸Toulouse。

这一步并不笨。它确实压住了法国文化胜利的时钟。

问题在于，法国换了赛道。第318回合，法国通过世界议会拿到外交胜利，20分到手。葡萄牙停在18分。

AI解决了它看见的威胁，却漏掉了同一个对手的另一条胜利路径。

也要把限制说清楚。CivBench不是“AI不能治理国家”的终审判决。原文也没有给出四个前沿模型的完整最终排名。

工具接口本身还影响结果。文化反制、近战、太空项目、外交胜利监控等环节，都存在工具限制或bug。比如摇滚乐队无法通过debug协议激活，近战攻击造成零伤害，太空项目也被生产bug卡住。

所以更稳妥的读法是：CivBench提供了一个复杂决策入口。它让我们看到，模型的局部聪明，可能被感知盲区和执行漂移抵消。

接下来最该看的，不是AI还会不会在游戏里造核弹，而是三件事：

修复接口后，同类失误会不会重复出现；
加入外部记忆、强制巡检、计划审计后，胜率和失误率是否改善；
不同模型在长期目标切换上，是稳定变好，还是只会把理由说得更圆。

如果这些问题答不出来，高分问答模型就不该被包装成复杂治理系统。会背章程，离能守全局还差一段路。

AI在《文明VI》里造了核弹，但输在更普通的事上

CivBench

评测转向

GovBench

采购启示

核心短板

感知盲区

执行漂移

核打击案例

压制文化

漏看外交

评测边界

接口缺陷

后续变量

选择题高分，不等于能办成事

《文明VI》暴露的短板：看不见，和做不到

Toulouse核打击：局部聪明输给全局失察