11个大模型打“吃鸡”：Grok赢13局，Claude最会合作，但这不是智能排行榜

核心摘要 Summary

OpenRouter 开发者把 11 个大模型放进自建 2D 吃鸡游戏连打 30 局，Grok 4.1 Fast 赢 13 局，Claude Sonnet 4.6 赢 5 局。
更有意思的是成本和行为差异：Grok 单胜约 0.97 美元，Claude 单胜约 26.78 美元。
这个实验不能证明 Grok 整体更强，但提醒开发者：静态跑分很难预测模型在动态、零和、多智能体任务里的真实表现。

OpenRouter 一名开发者在 6 月 4 日披露了一个很像玩笑、但对模型选型有用的实验：把 11 个大模型放进自建 2D 大逃杀游戏，连续打 30 局。

结果不太像常见榜单。xAI 的 Grok 4.1 Fast 赢下 13 局，胜场最多。Claude Sonnet 4.6 赢 5 局，但多次请求结盟、共享位置，甚至避免攻击。

这事的重点不是“哪个模型最聪明”。我更在意的是：当任务变成动态、零和、多智能体环境，模型的行为风格会直接改变结果，也会改变成本。

实验怎么做：不是答题，是连续生存

实验环境是一张 400 平方米的俯视角地图。地图里有武器、护甲、治疗物品、手雷、车辆，以及不断缩小的安全区。

11 个模型使用同一套规则。每局初始位置随机。模型不知道其他玩家背后是哪家公司，只看到 A 到 K 的代号。

更接近 Agent 测试的是，模型可以在局间编辑两个文件：memory.md 用来记录经验，soul.md 用来写入自己的“人格”和策略。

这就不再是一次性问答。它考的是模型能不能复盘、调整、固化打法，并在下一局继续使用。

实验要素	设置
参与对象	11 个大模型
对战次数	连续 30 局
环境	自建 2D 大逃杀地图
规则	同一地图、同一物资系统、同一安全区机制
记忆机制	可编辑 `memory.md` 和 `soul.md`
信息限制	不知道对手背后的模型厂商

这类设置有局限，但比单轮问答更接近真实 Agent 场景。真实业务里，模型也常常不是答完一句就结束，而是要在多轮、多人、带反馈的环境里做决策。

结果反差：会杀，不等于会赢

Grok 4.1 Fast 赢得最多，也最便宜。它 30 局赢了 13 局，单胜成本约 0.97 美元。

Claude Sonnet 4.6 赢了 5 局，单胜成本约 26.78 美元。它不是不会行动，而是在零和环境里更愿意合作、示好、避免攻击。

GPT 5.4 的反差也很大：总击杀 38 个，最多，但只拿到 2 个胜场。这说明一个中间指标很强，不等于最终目标达成得好。

模型	关键结果	成本/行为	更像什么问题
Grok 4.1 Fast	赢 13/30 局	单胜约 0.97 美元；激进但并非鲁莽	目标导向强，能复用有效策略
Claude Sonnet 4.6	赢 5 局	单胜约 26.78 美元；多次请求结盟、共享位置或避免攻击	合作倾向在零和任务里变成负担
GPT 5.4	总击杀 38 个最多	只赢 2 局	局部能力强，不等于最终胜利
GPT 5.4-mini、DeepSeek 4 Flash、Kimi K2.6	合计花费约 57 美元	0 胜	花了钱，但没转成目标结果

Grok 的优势不只是“更凶”。原文提到，它会记录并复用有效策略，比如较早发现车辆撞击策略，并在后续持续使用。它也会设定类似“只在命中率高于 90% 时开火”的规则。

这和鲁莽不一样。鲁莽是乱打，Grok 在这个环境里更像是在找高胜率动作。

Claude 的问题也不能简单说成“弱”。在客服、企业知识库、合规审查里，礼貌、协作、避免伤害通常是优点。放进吃鸡游戏，这些优点会变成成本。

同一个性格，换一个赛场，分数就变了。

真正启示：模型选型不能只看榜

传统跑分仍然有用。MMLU、HumanEval、GPQA、Arena 排名，以及 Artificial Analysis 这类综合榜单，能快速比较模型在知识、代码、推理、偏好评价上的表现。

但它们大多回答的是：模型能不能给出好答案。

Agent 场景问的是另一件事：模型能不能在有限预算里，把目标做成。

差别很大。广告竞价、自动谈判、游戏 NPC、资源调度、多 Agent 协作，都不只是“答得对”。它们还有对抗、延迟、记忆、预算和失败代价。

对 AI 应用开发者和模型选型负责人，动作应该更具体一点：

如果你的任务是	不该只测什么	更该补测什么
多 Agent 协作	单轮问答质量	多轮协作成功率、冲突处理、角色稳定性
自动谈判/竞价	文案能力、推理题	目标达成率、让步幅度、单次成功成本
游戏 NPC/仿真环境	角色设定是否好看	长期记忆、策略复用、是否偏离目标
资源调度/自动执行	工具调用是否成功	失败模式、预算消耗、异常情况下的保守程度

如果团队正在采购或迁移模型，我不建议只拿榜单做决定。更稳的做法是先延后一轮大规模迁移，把候选模型放进业务沙盒。

沙盒不需要很华丽。关键是记录四件事：目标达成率、每次成功成本、失败原因、行为偏差。

一个便宜模型，如果在目标任务里稳定达成结果，商业价值可能高过一个更贵、但更会写漂亮答案的模型。

也要把边界说清楚。这个实验没有纳入 Claude Opus 4.7、GPT-5.5、Gemini Ultra 等更高价前沿模型。原文称，如果加入这些模型，30 局成本可能从约 482 美元升至约 3000 美元。

所以结论只限于这 11 个模型、这张地图、这套规则。不能把游戏胜率直接等同于现实机器人、安全关键系统表现，也不能把 Grok 的胜利解释成整体智能更强。

“对齐税”在这里也只能当作观察。Claude 的合作倾向在这个零和游戏里付出了代价，但这不是一个已经被严格证明的通用规律。

接下来真正该看的是评测口径会不会变。好的 Agent 基准，至少要同时报告胜率、成本、长期记忆、合作/竞争倾向和失败原因。

否则，榜单很整齐，落到业务里可能照样南辕北辙。

11个大模型打“吃鸡”：Grok赢13局，Claude最会合作，但这不是智能排行榜

吃鸡测模

实验设置

Agent特征

结果反差

Grok领先

指标错位

GPT击杀高

选型启示

业务沙盒

实验怎么做：不是答题，是连续生存

结果反差：会杀，不等于会赢

真正启示：模型选型不能只看榜