OpenRouter 一名开发者在 6 月 4 日披露了一个很像玩笑、但对模型选型有用的实验:把 11 个大模型放进自建 2D 大逃杀游戏,连续打 30 局。
结果不太像常见榜单。xAI 的 Grok 4.1 Fast 赢下 13 局,胜场最多。Claude Sonnet 4.6 赢 5 局,但多次请求结盟、共享位置,甚至避免攻击。
这事的重点不是“哪个模型最聪明”。我更在意的是:当任务变成动态、零和、多智能体环境,模型的行为风格会直接改变结果,也会改变成本。
实验怎么做:不是答题,是连续生存
实验环境是一张 400 平方米的俯视角地图。地图里有武器、护甲、治疗物品、手雷、车辆,以及不断缩小的安全区。
11 个模型使用同一套规则。每局初始位置随机。模型不知道其他玩家背后是哪家公司,只看到 A 到 K 的代号。
更接近 Agent 测试的是,模型可以在局间编辑两个文件:memory.md 用来记录经验,soul.md 用来写入自己的“人格”和策略。
这就不再是一次性问答。它考的是模型能不能复盘、调整、固化打法,并在下一局继续使用。
| 实验要素 | 设置 |
|---|---|
| 参与对象 | 11 个大模型 |
| 对战次数 | 连续 30 局 |
| 环境 | 自建 2D 大逃杀地图 |
| 规则 | 同一地图、同一物资系统、同一安全区机制 |
| 记忆机制 | 可编辑 memory.md 和 soul.md |
| 信息限制 | 不知道对手背后的模型厂商 |
这类设置有局限,但比单轮问答更接近真实 Agent 场景。真实业务里,模型也常常不是答完一句就结束,而是要在多轮、多人、带反馈的环境里做决策。
结果反差:会杀,不等于会赢
Grok 4.1 Fast 赢得最多,也最便宜。它 30 局赢了 13 局,单胜成本约 0.97 美元。
Claude Sonnet 4.6 赢了 5 局,单胜成本约 26.78 美元。它不是不会行动,而是在零和环境里更愿意合作、示好、避免攻击。
GPT 5.4 的反差也很大:总击杀 38 个,最多,但只拿到 2 个胜场。这说明一个中间指标很强,不等于最终目标达成得好。
| 模型 | 关键结果 | 成本/行为 | 更像什么问题 |
|---|---|---|---|
| Grok 4.1 Fast | 赢 13/30 局 | 单胜约 0.97 美元;激进但并非鲁莽 | 目标导向强,能复用有效策略 |
| Claude Sonnet 4.6 | 赢 5 局 | 单胜约 26.78 美元;多次请求结盟、共享位置或避免攻击 | 合作倾向在零和任务里变成负担 |
| GPT 5.4 | 总击杀 38 个最多 | 只赢 2 局 | 局部能力强,不等于最终胜利 |
| GPT 5.4-mini、DeepSeek 4 Flash、Kimi K2.6 | 合计花费约 57 美元 | 0 胜 | 花了钱,但没转成目标结果 |
Grok 的优势不只是“更凶”。原文提到,它会记录并复用有效策略,比如较早发现车辆撞击策略,并在后续持续使用。它也会设定类似“只在命中率高于 90% 时开火”的规则。
这和鲁莽不一样。鲁莽是乱打,Grok 在这个环境里更像是在找高胜率动作。
Claude 的问题也不能简单说成“弱”。在客服、企业知识库、合规审查里,礼貌、协作、避免伤害通常是优点。放进吃鸡游戏,这些优点会变成成本。
同一个性格,换一个赛场,分数就变了。
真正启示:模型选型不能只看榜
传统跑分仍然有用。MMLU、HumanEval、GPQA、Arena 排名,以及 Artificial Analysis 这类综合榜单,能快速比较模型在知识、代码、推理、偏好评价上的表现。
但它们大多回答的是:模型能不能给出好答案。
Agent 场景问的是另一件事:模型能不能在有限预算里,把目标做成。
差别很大。广告竞价、自动谈判、游戏 NPC、资源调度、多 Agent 协作,都不只是“答得对”。它们还有对抗、延迟、记忆、预算和失败代价。
对 AI 应用开发者和模型选型负责人,动作应该更具体一点:
| 如果你的任务是 | 不该只测什么 | 更该补测什么 |
|---|---|---|
| 多 Agent 协作 | 单轮问答质量 | 多轮协作成功率、冲突处理、角色稳定性 |
| 自动谈判/竞价 | 文案能力、推理题 | 目标达成率、让步幅度、单次成功成本 |
| 游戏 NPC/仿真环境 | 角色设定是否好看 | 长期记忆、策略复用、是否偏离目标 |
| 资源调度/自动执行 | 工具调用是否成功 | 失败模式、预算消耗、异常情况下的保守程度 |
如果团队正在采购或迁移模型,我不建议只拿榜单做决定。更稳的做法是先延后一轮大规模迁移,把候选模型放进业务沙盒。
沙盒不需要很华丽。关键是记录四件事:目标达成率、每次成功成本、失败原因、行为偏差。
一个便宜模型,如果在目标任务里稳定达成结果,商业价值可能高过一个更贵、但更会写漂亮答案的模型。
也要把边界说清楚。这个实验没有纳入 Claude Opus 4.7、GPT-5.5、Gemini Ultra 等更高价前沿模型。原文称,如果加入这些模型,30 局成本可能从约 482 美元升至约 3000 美元。
所以结论只限于这 11 个模型、这张地图、这套规则。不能把游戏胜率直接等同于现实机器人、安全关键系统表现,也不能把 Grok 的胜利解释成整体智能更强。
“对齐税”在这里也只能当作观察。Claude 的合作倾向在这个零和游戏里付出了代价,但这不是一个已经被严格证明的通用规律。
接下来真正该看的是评测口径会不会变。好的 Agent 基准,至少要同时报告胜率、成本、长期记忆、合作/竞争倾向和失败原因。
否则,榜单很整齐,落到业务里可能照样南辕北辙。
