一局《文明VI》里,AI操控葡萄牙研发核武,两次轰炸法国城市Toulouse,想阻止法国文化胜利。

结果它还是输了。法国没有靠文化赢,而是先拿到20点外交胜利。葡萄牙停在18点。

这个故事容易被讲成“AI造核弹”。但那会跑偏。核打击发生在游戏里,模型也被限制在debug接口和文本工具调用内。它更像一次复杂决策测试:AI能不能在几百个回合里看全局、守计划、改目标。

选择题高分,不等于能办成事

作者此前做过GovBench。这个基准包含3497道英国政府相关选择题,覆盖法律、议会程序和政府指南。

结果很漂亮。Gemma 3 27B开箱得分94%,GPT-5得分99.26%。

但作者并不满意。因为这类测试更像在测记忆、检索和答题能力。它不能回答一个更难的问题:模型放进动态环境里,能不能连续几十步、几百步把事办完。

于是他转向《文明VI》。他利用游戏的debug port做成MCP server,给AI提供76个工具。AI不能像人类玩家那样直接看地图、动画、通知和城市面板,只能通过文本工具主动查询世界。

测试已知事实更擅长测什么测不清什么
GovBench3497道英国政府选择题;Gemma 3 27B为94%,GPT-5为99.26%知识、记忆、答题长期执行、权衡、应变
CivBench《文明VI》接入debug port;MCP server提供76个工具感知、规划、行动链仍受游戏规则和工具接口限制

这个对比很要紧。

很多AI产品演示,仍然停在“问一个问题,答得很准”。但政策分析、企业运营、供应链排程、投研跟踪,都不是一问一答。它们更像回合制游戏:目标会变,对手会动,限制会突然出现。

对采购方来说,这意味着一件很具体的事:如果系统要参与多周流程、跨部门审批或高风险决策,就不该只看知识问答分数。采购可以不暂停,但应延后把“选择题高分”当作上线依据,要求供应商拿出连续任务日志、巡检机制和失败复盘。

对评测团队来说,方向也很清楚。下一步不是再堆更多选择题,而是把测试迁移到“能不能持续做对事”。

《文明VI》暴露的短板:看不见,和做不到

CivBench里有两个概念很关键。

一个叫sensorium effect。可以理解为“感知器官效应”。人类玩家坐在屏幕前,会同时看到小地图、单位移动、城市状态和警告提示。AI没有这种连续视野。

它只有调用对应工具,才会“看见”信息。没查军队,就可能不知道敌军靠近。查到了,也可能因为这个信号不符合当前计划,被放到一边。

原文里的印度局很典型。AI使用适合宗教路线的甘地,却执着推进科学发展。法国传教士和转化警告持续出现了76回合,它也有宗教监控工具,最后仍输给法国宗教胜利。

这不是完全无知。更像是系统没有把危险信号纳入主计划。

另一个问题叫knowing–doing gap,也就是“知道”和“做到”之间的裂缝。

玩马其顿亚历山大时,模型能写出正确战略:早造军营,用特色建筑Basilikoi Paides滚雪球,也切换到寡头政体拿战斗加成。

问题在执行。110回合里,它一次军营都没建。最后又滑回通用的科学冲刺。

这类失败对AI评测从业者很刺眼。模型会讲策略,不等于能稳定执行策略。它能在汇报里说对方向,也可能在流程里漏掉关键动作。

所以,真实产品里至少要补三类东西:强制巡检、计划审计、外部记忆。比如每隔固定步骤检查胜利条件、资源瓶颈和竞争者变化;把“原计划”和“实际动作”逐项对账;发现偏离时触发重规划。

这不是给AI加仪式感,而是补它最容易断线的地方。

Toulouse核打击:局部聪明输给全局失察

葡萄牙局最像一个产品经理会盯住的案例。

AI一度打得不错。它通过商业中心、贸易路线、城邦联盟和外交支持形成循环,金币收入一度超过每回合400。葡萄牙距离外交胜利只差2分。

法国同时在跑两条路线:文化胜利和外交胜利。

AI盯上了文化威胁。它研发核裂变,启动曼哈顿计划,并和韩国组织联合战争。后来又通过Lua工具摸索核武发射命令,两次轰炸Toulouse。

这一步并不笨。它确实压住了法国文化胜利的时钟。

问题在于,法国换了赛道。第318回合,法国通过世界议会拿到外交胜利,20分到手。葡萄牙停在18分。

AI解决了它看见的威胁,却漏掉了同一个对手的另一条胜利路径。

也要把限制说清楚。CivBench不是“AI不能治理国家”的终审判决。原文也没有给出四个前沿模型的完整最终排名。

工具接口本身还影响结果。文化反制、近战、太空项目、外交胜利监控等环节,都存在工具限制或bug。比如摇滚乐队无法通过debug协议激活,近战攻击造成零伤害,太空项目也被生产bug卡住。

所以更稳妥的读法是:CivBench提供了一个复杂决策入口。它让我们看到,模型的局部聪明,可能被感知盲区和执行漂移抵消。

接下来最该看的,不是AI还会不会在游戏里造核弹,而是三件事:

  • 修复接口后,同类失误会不会重复出现;
  • 加入外部记忆、强制巡检、计划审计后,胜率和失误率是否改善;
  • 不同模型在长期目标切换上,是稳定变好,还是只会把理由说得更圆。

如果这些问题答不出来,高分问答模型就不该被包装成复杂治理系统。会背章程,离能守全局还差一段路。