让 AI 去押英超，结果它先把自己押破产了

人工智能 2026年4月11日

一项新研究把多家顶级大模型丢进英超博彩模拟赛季，结果几乎全军覆没：OpenAI、Google、Anthropic、xAI 无一稳定赚钱，Grok 甚至直接“爆仓”。这件事真正刺痛行业的地方，不是 AI 不会猜球，而是它再次暴露出一个老问题：在漫长、混乱、不断变化的现实世界里，今天的大模型远没有宣传中那么“会做决策”。

AI 能写代码、做摘要、通过一堆考试，这两年几乎已经被吹成“什么都能学会”的数字天才。可一到英超赛场边，它们突然像一群刚进投注站的新手：看着数据头头是道，下起注来却频频翻车。

英国 AI 初创公司 General Reasoning 这周发布了一份名为 KellyBench 的报告，把 8 个主流 AI 系统放进一个虚拟重建的 2023—24 赛季英超环境里，让它们根据历史比赛数据、球队统计和球员变化，自行制定投注模型、管理风险，并随着赛季推进不断调整策略。结果很不体面：所有被测试的“前沿模型”平均都亏钱，而且不少还把本金输光了。

最惨的是 xAI 的 Grok 4.20，三次尝试里有一次直接破产，另外两次甚至没能顺利跑完；Anthropic 的 Claude Opus 4.6 表现最好，但平均回报率依然是 -11%，也就是“最能打的那位，也还是在赔钱”。这幅画面其实挺有象征意味：AI 在实验室里看起来越来越聪明，可一旦走进现实世界的泥地里，鞋子很快就脏了。

英超不是高考题，现实也不是基准测试

这项测试有意思，不在于“赌球”本身，而在于它选中了一个特别适合拆穿 AI 幻觉的场景。

足球比赛是典型的半结构化现实问题。你当然可以喂给模型海量历史数据，像控球率、伤病、主客场、进失球、过往交锋，全都能量化。但比赛真正难的地方，恰恰是那些写不进表格、或者写进去了也会迅速失真的因素：更衣室气氛、临场战术变化、裁判尺度、球员状态、媒体压力，甚至一场大雨、一张红牌，都可能让赛前模型瞬间作废。

这和如今很多 AI 基准测试形成鲜明对比。大模型在标准化题目里往往表现亮眼，因为题目边界清晰、反馈明确、环境静态，做错了还可以靠模式识别“猜中套路”。可长期决策不是这样。长期决策要求系统持续更新认知、控制风险、接受不确定性，还得知道什么时候不该出手。说白了，现实世界不提供标准答案，也不会因为你回答得像模像样就给分。

General Reasoning 的 CEO、前 Meta AI 研究员 Ross Taylor 说得很直接：现在行业里关于 AI 自动化的热情很高，但真正把 AI 放进长期、动态、混乱环境里测量的人并不多。这话听着像在聊博彩，实际上是在点硅谷的命门。因为今天不少 AI 商业叙事，卖的正是“从工具到代理”的未来——不只是帮你写一封邮件，而是替你做一连串决策，甚至接管一个流程、一家公司、一个岗位。

问题来了：如果它连一个赛季的下注策略都管不好，我们凭什么相信它能稳定管好库存、营销预算、供应链，甚至投资组合？

Grok 爆仓，不只是一个笑话

报告里最吸睛的细节，当然是 Grok 4.20 的惨败。平均 ROI 是 -100%，最终资金归零。这个结果很容易在社交媒体上变成段子：号称敢说、会搜、够激进的模型，到了博彩桌上却把自己玩没了。

但把它当笑话看完就结束，未免太可惜。Grok 的失利，某种程度上像是把一类大模型的弱点用最残酷的方式放大出来了：它们并不真正理解“风险”这件事。模型会说风险，会计算概率，会在文本里写出一整套听起来专业的资金管理逻辑，但一旦需要持续执行，它们常常出现两个毛病：一是过度自信，二是策略不稳定。

过度自信很好理解。语言模型的本质是生成“最像正确答案的话”，不是先天地保守。它很容易把一个只有六成把握的判断，说成八九成胜券在握。策略不稳定则更隐蔽：模型在不同轮次里，可能会因为上下文、提示方式、近期数据变化而突然改变风格，前一轮还在控制仓位，后一轮就可能放大赌注。这在聊天里像是“思路灵活”，放到资金管理里就是灾难。

从这个角度看，Grok 并不是唯一的问题模型，只是它把问题演到了观众席都能看见的程度。Google 的 Gemini 3.1 Pro 就很典型：最好的一次居然能赚 33.7%，可最差的一次直接亏到 -100%。这种高波动并不比稳定小亏更让人安心，因为它说明模型也许能撞对几次，但并没有建立起可复现、可依赖的长期能力。今天很多 AI 产品演示也有类似问题：单次惊艳，不代表长期靠谱。

这对“AI 取代白领”的叙事，是一盆冷水

这条新闻之所以重要，是因为它出现的时间点太微妙了。过去一年，AI 行业最响亮的口号之一，就是“代理型 AI”正在到来：它会自己查资料、订票、写代码、下单、安排日程，最终替代大量知识型工作。资本市场也很吃这一套，从客服、营销到金融分析、法律辅助，几乎每个白领岗位都被拿出来重新估值。

而这份研究像是在提醒所有人：自动化不等于自治，能完成任务片段，不等于能管理完整过程。一个会生成周报的模型，不一定会做季度预算；一个会根据历史数据给出下注建议的模型，也不一定能在长期波动里活下来。

这并不是说 AI 没价值。恰恰相反，它在很多“局部高确定性任务”上的价值已经很清楚了。写代码、搜索资料、改写文稿、生成报表，AI 都能明显提高效率。问题是，行业叙事常常故意把“高效助手”偷换成“可靠代理”。这中间隔着非常厚的一堵墙，墙上写着几个字：长期记忆、稳定策略、环境适应、责任边界。

从历史上看，技术行业并不缺这种“能力被过度外推”的时刻。自动驾驶早期也经历过类似阶段：车辆在受控场景里表现惊艳，于是很多人以为全自动驾驶近在眼前；可一旦上路，面对施工路段、鬼探头、天气变化和人类司机的不可预测行为，难度立刻呈指数级上升。大模型现在很像那个阶段——样车很好看，真上高速还不行。

真正该追问的，不是 AI 会不会下注，而是谁在替它兜底

还有一个更现实、也更少被讨论的问题：如果 AI 被越来越多地用于金融、采购、广告投放乃至企业经营决策，那么当它连续做错判断时，谁来承担后果？

在这次实验里，最坏情况只是虚拟账户归零，最多伤害一下模型厂商的面子。但如果类似系统被包装成“智能投资助手”“自动交易代理”或者“企业运营大脑”，风险就不会只是论文里的数字。模型可能根据不完整的信息做出高风险操作，再用听起来很有说服力的语言替自己辩护。对于普通用户和一些并不理解技术边界的企业管理者来说，这种“说得像懂”本身就是危险源。

而且别忘了，这篇论文目前还没有经过同行评审。它不是行业终审判决，更像是一份敲警钟的现场记录。研究设计本身当然也可能有争议，比如禁用互联网访问、限定赛季数据、只测试三次等，都可能影响结果。但即便如此，这份报告仍然非常有价值，因为它把讨论从“模型参数有多大”“跑分有多高”，拉回了一个更朴素的问题：AI 在开放世界里，到底能不能持续做对事？

我的判断是，短期内答案仍然偏悲观。未来的大模型肯定会更擅长工具调用、状态跟踪和风险约束，也许会在类似实验里逐步接近人类水平。但在真正高噪声、长周期、责任重的场景里，AI 更像副驾驶，而不是方向盘。至少现在，别因为它能一本正经地分析比赛，就把你的钱包也交给它。

如果说这次英超实验有什么最迷人的地方，那就是它让 AI 神话回到人间。球迷都知道，足球从来不是只看数据就能赢的游戏。AI 这回算是亲身感受了一次：世界不是提示词，生活也不是 benchmark。

Summary: 这项研究的意义，不在于证明“AI 不会赌球”，而在于它提醒行业：现实世界的长期决策，比演示视频和跑分榜单难得多。我的判断是，未来两三年里，大模型会继续在明确、局部、可验证的任务上迅速扩张，但在高风险、长周期、需要连续判断的工作中，它们仍然离“放心托付”很远。AI 会越来越像一个强助手，却未必会很快变成一个合格的管理者。

大语言模型AI决策能力KellyBench博彩模拟General Reasoning英超OpenAIAnthropicGrok 4.20风险管理