AI 真把一道前沿数学题做出来了:超图拉姆齐问题被攻破,信号比“会做题”更强

人工智能 2026年3月24日
Epoch AI 公布的一道 FrontierMath 开放问题,已经被 GPT-5.4 Pro 首次诱导出可发表的解法,并获得出题数学家确认。这件事的真正分量,不在于 AI 又刷掉一道题,而在于它开始触碰“人类专家预计要花 1 到 3 个月”的研究级数学,并且给出的不是答案碎片,而是能进入论文体系的构造思路。

一道不算“出圈”的数学题,为什么让人心头一震

如果你不是做组合数学的,看到“超图”“Ramsey-style problem”“下界构造”这些词,第一反应大概率是:这事离我很远。但这条消息的冲击力,恰恰来自它一点也不大众。Epoch AI 在 FrontierMath: Open Problems 页面更新称,一道关于超图的拉姆齐风格问题已经被解决,而且最先诱导出解法的是 GPT-5.4 Pro,参与者是 Kevin Barreto 和 Liam Price,随后由题目贡献者、数学家 Will Brian 确认可行,并将整理成论文发表。

这和我们熟悉的“AI 在竞赛里拿高分”不是一回事。竞赛题往往有标准边界、明确验证器和相对有限的搜索空间,而这类开放问题的难点在于:你并不知道解法长什么样,也不知道该往哪个方向试。原页面对人类专家的评估很直白——高度熟悉该问题的数学家大约只有十人左右,真正认真尝试过的人在 5 到 10 位之间,专家估计一个人类行家要花 1 到 3 个月才能解出来。换句话说,这不是“多做几套卷子”能碰运气撞开的门。

更有意思的是,题目本身还不是那种“惊天动地、改写数学史”的世纪谜题。它被评价为“中等有趣”,解出来大概率发表在专业期刊,而不是登上《自然》头版。正因为如此,这件事反而更像真实科研世界:大量推动学科前进的工作,并不是轰轰烈烈的终极定理,而是一个下界被改进了一截,一个构造终于长出来了,一条原本卡住的技术路线被打通。AI 开始在这种层级上发力,行业应该比看到它再做对一道 IMO 风格题更警觉一些。

这道题到底在问什么?别怕,它没看上去那么吓人

先把术语翻成“人话”。题目讨论的是一种叫“超图”的对象。普通图的边只能连两个点,超图的“边”可以一次连很多点。研究者关心的是:能不能构造出一种点很多、边不多、没有孤立点的超图,同时它又尽量避免出现某种“分割结构”。这里的“partition of size n”大意是,找出一批顶点和一批超边,让这些顶点中的每一个都恰好落在其中一条边里,不多不少,像把一堆元素规整地分派进若干盒子。

这个问题背后定义了一个序列 H(n):在不允许出现过大分割的条件下,一个超图最多能有多少个顶点。已知有一个递归构造给出了下界 k_n,研究目标则是把这个下界按常数因子再往上抬一截,也就是证明 H(n) 至少能做到 c*k_n,其中 c 大于 1,而且这种提升不能只在小样本里偶尔出现,最好从 n=15 这样的规模起就已经生效。

听起来抽象,但它属于组合数学里很典型的“构造型问题”:不是问你某个对象存不存在,而是逼你设计出一个更聪明的对象。这类问题像在玩高维积木:每加一层结构,可能增强顶点规模,也可能意外引入你最不想看到的坏模式。Will Brian 对这次解法的评价非常耐人寻味。他说,自己之前就怀疑 AI 的路线可能可行,但感觉很难真正推出来;现在回头看,解法“完全奏效”,而且它消除了原有下界构造中的一种低效性,在某种意义上还“镜像”了上界构造的复杂性。数学家会用“镜像”这个词,通常说明这里不是蒙对了,而是碰到了结构层面的对称与呼应。

真正值得关注的,不是 GPT-5.4 Pro,而是“可复现的多模型解题”

如果消息只停留在“某个最强模型偶然做对一道题”,我会把它归入实验室新闻,看看就算了。但这次后续更新释放了另一个更重要的信号:在 Epoch AI 完成了更通用的 FrontierMath 开放问题测试脚手架之后,其他模型也解出了这道题,包括 Opus 4.6 (max)、Gemini 3.1 Pro,以及 GPT-5.4 (xhigh)。

这说明两件事。第一,这不太像一次孤立的“神谕时刻”,而更像某类模型已经普遍跨过了一道门槛。第二,评估研究正在从“贴榜单”转向“验证科研能力”。过去一年,AI 圈最热的话题之一就是:模型到底是在记忆、模式拟合,还是已经能在陌生问题上形成稳定推理?开放数学问题,尤其是那种没有公开标准答案、需要构造和论证并重的问题,是很好的试金石。它不像代码 benchmark 那样容易被训练集污染,也不像选择题那样能靠风格猜测。

从这个角度看,FrontierMath 的意义正在变得越来越清晰。它不是为了造一个更难的考试,而是试图搭一个更接近真实数学研究环境的评测场:题目是开放的,价值是专业判断的,解答需要能被人类数学家读懂并确认。AI 如果能在这里持续给出成果,那么“科研助手”这个词就要重新定义了。过去我们说助手,往往指文献整理、代码补全、起草邮件;现在它开始介入猜想、构造和证明策略,这已经接近初级合作者的边界。

兴奋之外,也该冷静:AI 解题不等于 AI 理解了数学

当然,新闻越振奋,越要防止叙事滑坡。AI 解出一道研究题,不等于它已经“像数学家一样理解数学”。数学研究不仅是找到一条可行路线,还包括判断哪些定义更自然、哪些推广更有价值、哪些证明能连接更大的理论版图。眼下我们看到的,更多是模型在某些局部高难任务上表现出惊人的构造与搜索能力,它甚至能给出人类此前没展开的思路,但这还不自动等于它拥有稳定、统一、可迁移的数学世界观。

另一个现实问题是署名与学术信用。根据页面信息,Barreto 和 Price 有机会成为后续论文共同作者,而 Brian 计划把这份解法写成正式论文,甚至包含被 AI 启发出的后续工作。这个安排相对务实:论文署名仍然是人类,AI 被当作关键工具与思想来源。可随着这类案例增多,学术界迟早要更认真地回答几个问题:什么叫“模型贡献”?谁对证明的正确性负责?如果一个想法先出现在对话记录里,再经人类整理成可发表形式,学术奖励应该如何分配?

我个人的判断是,短期内学界不会把 AI 当作作者,但会越来越像对待“超强实验设备”或“异常能干的研究助理”那样对待它:你不能给仪器署名,可你也不能假装它没有改变研究流程。尤其是在组合、代数、数论这类既需要形式推演、又常依赖灵巧构造的领域,AI 的存在感会越来越强。真正尴尬的,也许不是“AI 能不能做数学”,而是“很多研究团队还没学会如何把 AI 纳入数学工作流”。

从这道超图题往外看,AI 科研已经进入更难被忽视的阶段

这几年,AI 在科学上的新闻很多:帮忙预测蛋白质结构、做材料筛选、写代码、分析文献。可严格来说,其中不少成果仍停留在“加速已知流程”——把一个原本就明确的优化问题做得更快、更大规模。数学开放问题不同,它没有实验仪器给你直接读数,没有海量标注数据告诉你哪里是正确方向,很多时候甚至连“这条路值不值得走”都要靠直觉。这也是为什么我会把这次事件看得比普通 benchmark 进步更重一些。

它还可能带来一个很朴素、但影响深远的变化:更多中小型数学问题会先被 AI 啃掉。不是每个问题都值得天才数学家花半年去追,但如果模型能用几轮对话提供一个可检验、可改写、可发表的方案,那么许多过去因为“性价比不高”而搁置的难题,可能突然变得可做了。这会改变学科内部的研究节奏,也会改变青年研究者的训练方式。你要学的,不再只是证明本身,还包括如何把问题喂给模型、如何辨别模型的伪洞见、如何从一堆半成品推理里提炼出真正的数学。

说得再直白一点:未来的数学家,可能越来越像导演,而不只是独奏者。你要调度人类直觉、机器搜索、形式验证、文献记忆这些不同能力,让它们在同一个问题上协同工作。这听上去有点浪漫,也有点残酷。浪漫在于,很多卡住多年的技术细节,也许会突然迎来突破;残酷在于,那些拒绝使用新工具的人,可能并不是“更纯粹”,而是在错过一个正在形成的新范式。

这道超图问题并不会让普通用户明天就买到更好的手机,也不会立刻改变哪家公司的市值曲线。但它很可能会被未来回头看作一个小而硬的坐标点:AI 不只是会总结论文、会刷题,它开始能参与制造新的数学知识了。科研这张桌子,已经被它悄悄拉开了一把椅子。

Summary: 我对这件事的判断很明确:它不是一次漂亮的演示,而是一次研究范式变化的前奏。单个问题被解开并不能证明 AI 已经“理解数学”,但多模型在开放题上给出可发表思路,说明它至少正在成为真正的科研生产力。接下来两三年,数学和理论计算机领域会最先感受到这种冲击;谁先学会把模型变成合作者,谁就更可能率先吃到下一波学术红利。
GPT-5.4 ProFrontierMathEpoch AI研究级数学超图拉姆齐问题组合数学可发表的解法数学推理Kevin BarretoWill Brian