OpenRouter 一名开发者在 6 月 4 日披露了一个很像玩笑、但对模型选型有用的实验:把 11 个大模型放进自建 2D 大逃杀游戏,连续打 30 局。

结果不太像常见榜单。xAI 的 Grok 4.1 Fast 赢下 13 局,胜场最多。Claude Sonnet 4.6 赢 5 局,但多次请求结盟、共享位置,甚至避免攻击。

这事的重点不是“哪个模型最聪明”。我更在意的是:当任务变成动态、零和、多智能体环境,模型的行为风格会直接改变结果,也会改变成本。

实验怎么做:不是答题,是连续生存

实验环境是一张 400 平方米的俯视角地图。地图里有武器、护甲、治疗物品、手雷、车辆,以及不断缩小的安全区。

11 个模型使用同一套规则。每局初始位置随机。模型不知道其他玩家背后是哪家公司,只看到 A 到 K 的代号。

更接近 Agent 测试的是,模型可以在局间编辑两个文件:memory.md 用来记录经验,soul.md 用来写入自己的“人格”和策略。

这就不再是一次性问答。它考的是模型能不能复盘、调整、固化打法,并在下一局继续使用。

实验要素设置
参与对象11 个大模型
对战次数连续 30 局
环境自建 2D 大逃杀地图
规则同一地图、同一物资系统、同一安全区机制
记忆机制可编辑 memory.mdsoul.md
信息限制不知道对手背后的模型厂商

这类设置有局限,但比单轮问答更接近真实 Agent 场景。真实业务里,模型也常常不是答完一句就结束,而是要在多轮、多人、带反馈的环境里做决策。

结果反差:会杀,不等于会赢

Grok 4.1 Fast 赢得最多,也最便宜。它 30 局赢了 13 局,单胜成本约 0.97 美元。

Claude Sonnet 4.6 赢了 5 局,单胜成本约 26.78 美元。它不是不会行动,而是在零和环境里更愿意合作、示好、避免攻击。

GPT 5.4 的反差也很大:总击杀 38 个,最多,但只拿到 2 个胜场。这说明一个中间指标很强,不等于最终目标达成得好。

模型关键结果成本/行为更像什么问题
Grok 4.1 Fast赢 13/30 局单胜约 0.97 美元;激进但并非鲁莽目标导向强,能复用有效策略
Claude Sonnet 4.6赢 5 局单胜约 26.78 美元;多次请求结盟、共享位置或避免攻击合作倾向在零和任务里变成负担
GPT 5.4总击杀 38 个最多只赢 2 局局部能力强,不等于最终胜利
GPT 5.4-mini、DeepSeek 4 Flash、Kimi K2.6合计花费约 57 美元0 胜花了钱,但没转成目标结果

Grok 的优势不只是“更凶”。原文提到,它会记录并复用有效策略,比如较早发现车辆撞击策略,并在后续持续使用。它也会设定类似“只在命中率高于 90% 时开火”的规则。

这和鲁莽不一样。鲁莽是乱打,Grok 在这个环境里更像是在找高胜率动作。

Claude 的问题也不能简单说成“弱”。在客服、企业知识库、合规审查里,礼貌、协作、避免伤害通常是优点。放进吃鸡游戏,这些优点会变成成本。

同一个性格,换一个赛场,分数就变了。

真正启示:模型选型不能只看榜

传统跑分仍然有用。MMLU、HumanEval、GPQA、Arena 排名,以及 Artificial Analysis 这类综合榜单,能快速比较模型在知识、代码、推理、偏好评价上的表现。

但它们大多回答的是:模型能不能给出好答案。

Agent 场景问的是另一件事:模型能不能在有限预算里,把目标做成。

差别很大。广告竞价、自动谈判、游戏 NPC、资源调度、多 Agent 协作,都不只是“答得对”。它们还有对抗、延迟、记忆、预算和失败代价。

对 AI 应用开发者和模型选型负责人,动作应该更具体一点:

如果你的任务是不该只测什么更该补测什么
多 Agent 协作单轮问答质量多轮协作成功率、冲突处理、角色稳定性
自动谈判/竞价文案能力、推理题目标达成率、让步幅度、单次成功成本
游戏 NPC/仿真环境角色设定是否好看长期记忆、策略复用、是否偏离目标
资源调度/自动执行工具调用是否成功失败模式、预算消耗、异常情况下的保守程度

如果团队正在采购或迁移模型,我不建议只拿榜单做决定。更稳的做法是先延后一轮大规模迁移,把候选模型放进业务沙盒。

沙盒不需要很华丽。关键是记录四件事:目标达成率、每次成功成本、失败原因、行为偏差。

一个便宜模型,如果在目标任务里稳定达成结果,商业价值可能高过一个更贵、但更会写漂亮答案的模型。

也要把边界说清楚。这个实验没有纳入 Claude Opus 4.7、GPT-5.5、Gemini Ultra 等更高价前沿模型。原文称,如果加入这些模型,30 局成本可能从约 482 美元升至约 3000 美元。

所以结论只限于这 11 个模型、这张地图、这套规则。不能把游戏胜率直接等同于现实机器人、安全关键系统表现,也不能把 Grok 的胜利解释成整体智能更强。

“对齐税”在这里也只能当作观察。Claude 的合作倾向在这个零和游戏里付出了代价,但这不是一个已经被严格证明的通用规律。

接下来真正该看的是评测口径会不会变。好的 Agent 基准,至少要同时报告胜率、成本、长期记忆、合作/竞争倾向和失败原因。

否则,榜单很整齐,落到业务里可能照样南辕北辙。