让 AI 去押英超,结果它先把自己押破产了

人工智能 2026年4月11日
让 AI 去押英超,结果它先把自己押破产了
一项新研究把多家顶级大模型丢进英超博彩模拟赛季,结果几乎全军覆没:OpenAI、Google、Anthropic、xAI 无一稳定赚钱,Grok 甚至直接“爆仓”。这件事真正刺痛行业的地方,不是 AI 不会猜球,而是它再次暴露出一个老问题:在漫长、混乱、不断变化的现实世界里,今天的大模型远没有宣传中那么“会做决策”。

AI 能写代码、做摘要、通过一堆考试,这两年几乎已经被吹成“什么都能学会”的数字天才。可一到英超赛场边,它们突然像一群刚进投注站的新手:看着数据头头是道,下起注来却频频翻车。

英国 AI 初创公司 General Reasoning 这周发布了一份名为 KellyBench 的报告,把 8 个主流 AI 系统放进一个虚拟重建的 2023—24 赛季英超环境里,让它们根据历史比赛数据、球队统计和球员变化,自行制定投注模型、管理风险,并随着赛季推进不断调整策略。结果很不体面:所有被测试的“前沿模型”平均都亏钱,而且不少还把本金输光了。

最惨的是 xAI 的 Grok 4.20,三次尝试里有一次直接破产,另外两次甚至没能顺利跑完;Anthropic 的 Claude Opus 4.6 表现最好,但平均回报率依然是 -11%,也就是“最能打的那位,也还是在赔钱”。这幅画面其实挺有象征意味:AI 在实验室里看起来越来越聪明,可一旦走进现实世界的泥地里,鞋子很快就脏了。

英超不是高考题,现实也不是基准测试

这项测试有意思,不在于“赌球”本身,而在于它选中了一个特别适合拆穿 AI 幻觉的场景。

足球比赛是典型的半结构化现实问题。你当然可以喂给模型海量历史数据,像控球率、伤病、主客场、进失球、过往交锋,全都能量化。但比赛真正难的地方,恰恰是那些写不进表格、或者写进去了也会迅速失真的因素:更衣室气氛、临场战术变化、裁判尺度、球员状态、媒体压力,甚至一场大雨、一张红牌,都可能让赛前模型瞬间作废。

这和如今很多 AI 基准测试形成鲜明对比。大模型在标准化题目里往往表现亮眼,因为题目边界清晰、反馈明确、环境静态,做错了还可以靠模式识别“猜中套路”。可长期决策不是这样。长期决策要求系统持续更新认知、控制风险、接受不确定性,还得知道什么时候不该出手。说白了,现实世界不提供标准答案,也不会因为你回答得像模像样就给分。

General Reasoning 的 CEO、前 Meta AI 研究员 Ross Taylor 说得很直接:现在行业里关于 AI 自动化的热情很高,但真正把 AI 放进长期、动态、混乱环境里测量的人并不多。这话听着像在聊博彩,实际上是在点硅谷的命门。因为今天不少 AI 商业叙事,卖的正是“从工具到代理”的未来——不只是帮你写一封邮件,而是替你做一连串决策,甚至接管一个流程、一家公司、一个岗位。

问题来了:如果它连一个赛季的下注策略都管不好,我们凭什么相信它能稳定管好库存、营销预算、供应链,甚至投资组合?

Grok 爆仓,不只是一个笑话

报告里最吸睛的细节,当然是 Grok 4.20 的惨败。平均 ROI 是 -100%,最终资金归零。这个结果很容易在社交媒体上变成段子:号称敢说、会搜、够激进的模型,到了博彩桌上却把自己玩没了。

但把它当笑话看完就结束,未免太可惜。Grok 的失利,某种程度上像是把一类大模型的弱点用最残酷的方式放大出来了:它们并不真正理解“风险”这件事。模型会说风险,会计算概率,会在文本里写出一整套听起来专业的资金管理逻辑,但一旦需要持续执行,它们常常出现两个毛病:一是过度自信,二是策略不稳定。

过度自信很好理解。语言模型的本质是生成“最像正确答案的话”,不是先天地保守。它很容易把一个只有六成把握的判断,说成八九成胜券在握。策略不稳定则更隐蔽:模型在不同轮次里,可能会因为上下文、提示方式、近期数据变化而突然改变风格,前一轮还在控制仓位,后一轮就可能放大赌注。这在聊天里像是“思路灵活”,放到资金管理里就是灾难。

从这个角度看,Grok 并不是唯一的问题模型,只是它把问题演到了观众席都能看见的程度。Google 的 Gemini 3.1 Pro 就很典型:最好的一次居然能赚 33.7%,可最差的一次直接亏到 -100%。这种高波动并不比稳定小亏更让人安心,因为它说明模型也许能撞对几次,但并没有建立起可复现、可依赖的长期能力。今天很多 AI 产品演示也有类似问题:单次惊艳,不代表长期靠谱。

这对“AI 取代白领”的叙事,是一盆冷水

这条新闻之所以重要,是因为它出现的时间点太微妙了。过去一年,AI 行业最响亮的口号之一,就是“代理型 AI”正在到来:它会自己查资料、订票、写代码、下单、安排日程,最终替代大量知识型工作。资本市场也很吃这一套,从客服、营销到金融分析、法律辅助,几乎每个白领岗位都被拿出来重新估值。

而这份研究像是在提醒所有人:自动化不等于自治,能完成任务片段,不等于能管理完整过程。一个会生成周报的模型,不一定会做季度预算;一个会根据历史数据给出下注建议的模型,也不一定能在长期波动里活下来。

这并不是说 AI 没价值。恰恰相反,它在很多“局部高确定性任务”上的价值已经很清楚了。写代码、搜索资料、改写文稿、生成报表,AI 都能明显提高效率。问题是,行业叙事常常故意把“高效助手”偷换成“可靠代理”。这中间隔着非常厚的一堵墙,墙上写着几个字:长期记忆、稳定策略、环境适应、责任边界。

从历史上看,技术行业并不缺这种“能力被过度外推”的时刻。自动驾驶早期也经历过类似阶段:车辆在受控场景里表现惊艳,于是很多人以为全自动驾驶近在眼前;可一旦上路,面对施工路段、鬼探头、天气变化和人类司机的不可预测行为,难度立刻呈指数级上升。大模型现在很像那个阶段——样车很好看,真上高速还不行。

真正该追问的,不是 AI 会不会下注,而是谁在替它兜底

还有一个更现实、也更少被讨论的问题:如果 AI 被越来越多地用于金融、采购、广告投放乃至企业经营决策,那么当它连续做错判断时,谁来承担后果?

在这次实验里,最坏情况只是虚拟账户归零,最多伤害一下模型厂商的面子。但如果类似系统被包装成“智能投资助手”“自动交易代理”或者“企业运营大脑”,风险就不会只是论文里的数字。模型可能根据不完整的信息做出高风险操作,再用听起来很有说服力的语言替自己辩护。对于普通用户和一些并不理解技术边界的企业管理者来说,这种“说得像懂”本身就是危险源。

而且别忘了,这篇论文目前还没有经过同行评审。它不是行业终审判决,更像是一份敲警钟的现场记录。研究设计本身当然也可能有争议,比如禁用互联网访问、限定赛季数据、只测试三次等,都可能影响结果。但即便如此,这份报告仍然非常有价值,因为它把讨论从“模型参数有多大”“跑分有多高”,拉回了一个更朴素的问题:AI 在开放世界里,到底能不能持续做对事?

我的判断是,短期内答案仍然偏悲观。未来的大模型肯定会更擅长工具调用、状态跟踪和风险约束,也许会在类似实验里逐步接近人类水平。但在真正高噪声、长周期、责任重的场景里,AI 更像副驾驶,而不是方向盘。至少现在,别因为它能一本正经地分析比赛,就把你的钱包也交给它。

如果说这次英超实验有什么最迷人的地方,那就是它让 AI 神话回到人间。球迷都知道,足球从来不是只看数据就能赢的游戏。AI 这回算是亲身感受了一次:世界不是提示词,生活也不是 benchmark。

Summary: 这项研究的意义,不在于证明“AI 不会赌球”,而在于它提醒行业:现实世界的长期决策,比演示视频和跑分榜单难得多。我的判断是,未来两三年里,大模型会继续在明确、局部、可验证的任务上迅速扩张,但在高风险、长周期、需要连续判断的工作中,它们仍然离“放心托付”很远。AI 会越来越像一个强助手,却未必会很快变成一个合格的管理者。
大语言模型AI决策能力KellyBench博彩模拟General Reasoning英超OpenAIAnthropicGrok 4.20风险管理