23岁的 Liam Price 不是职业数学家,也没有高等数学训练。他用 ChatGPT Pro 调用 GPT-5.4 Pro,对 erdosproblems.com 上一个约60年的 Erdős 原始集合问题给出提示,一次之后拿到了解法草稿。

这件事最容易被讲偏:AI 又解了一道数学难题,数学家要失业了。

我不太买账这个讲法。更准确的说法是:大模型在一个具体问题上给出了可用的新路径,但它没有替代数学证明本身。Terence Tao 和 Jared Lichtman 都认为,ChatGPT 的原始输出很粗糙,真正有价值的是其中一个此前没人拿来处理这类问题的公式连接。

后面的工作仍然是人的活。有人要看懂它,筛掉错的部分,把松散推理压成证明,再交给数学共同体复核。

这次不是“AI 单刷”,而是一条分工链

Price 的角色很具体:他把开放问题丢给模型,拿到了一个不寻常的解法草稿,并发布到 erdosproblems.com。

但真正让这件事进入专家视野的人,是 Kevin Barreto。Barreto 是 Cambridge 数学本科二年级学生。他识别出这份输出可能不是普通幻觉,于是联系了专家。

这条链条里,每个人和工具的边界都要说清。边界说不清,后面的判断就会飘。

环节人物/工具做了什么不能夸大的地方
生成思路Liam Price / GPT-5.4 Pro从一次提示中得到解法草稿不是可直接发表的严格证明
识别价值Kevin Barreto判断结果可能重要,并联系专家不是最终证明者
数学整理Terence Tao、Jared Lichtman 等理解、验证、压缩和澄清证明长期意义仍需更多检验

这个分工比“AI 取代数学家”更接近现实。

大模型像是把一把奇怪的钥匙递到了门口。钥匙能不能开门、门后是不是正路,还要靠懂行的人判断。数学里差一毫厘,便不是证明。

这个问题难在哪里:原始集合和 Erdős sum

这里的 primitive sets,中文可叫原始集合。它的要求很朴素:集合里任意一个整数,都不能整除另一个整数。

素数集合就是一个直观例子。两个不同素数之间不会互相整除。

Erdős 还定义了 Erdős sum,用来衡量这类集合。他曾证明相关和的最大值约为1.6,并猜测由所有素数组成的无穷集合能达到这个上界。Jared Lichtman 在2022年的博士论文工作中证明了这一相关的素数集合最大值猜想。

这次 Price 触发的不是同一个命题,而是另一个下界问题。

Erdős 猜测:当原始集合里的元素趋向越来越大时,它的 Erdős sum 下界会趋近于1。这个问题此前没有解决。Lichtman 也曾尝试过,但卡住了。

Tao 和 Lichtman 看重的地方,不是 ChatGPT 写出了一篇漂亮证明。恰恰相反,原始输出质量很差。

有用的是那条连接:模型把一个相邻数学领域里并不陌生的公式,接到了 primitive sets 问题上。专家认为,此前没人把这个方法用于这类问题。

这就把故事从“刷题成功”改成了“开局换路”。

过去研究者可能在第一步就沿着同一套标准动作往前走。模型没有人的研究惯性,反而撞到了一条没人试过的缝。瞎猫碰上死耗子,和可迁移方法之间,还隔着很长一段验证距离。

真正该看的是:这条路能不能迁移

近两年,AI 解 Erdős 问题并不稀奇。Erdős 问题有公开清单,题目通常短,适合模型尝试,也适合传播。

但它不是完美的 AI 数学能力基准。

原因很简单:Erdős 问题跨度很大。有些深,有些偏边角。AI 给出的若干解法,后来也被发现并不新。把所有 Erdős 问题都当成同一级别的“数学高峰”,会误导读者。

所以,这次最该观察的不是又有几个问题被模型“拿下”,而是三个更硬的变量:

观察点为什么重要目前能说到哪一步
公式连接能否用于相邻数论问题决定它是单题巧合,还是可复用方法专家认为可能有更广用途,但未定论
证明是否经得起独立复核数学结果不能靠模型输出背书仍需要人类专家验证、整理和发表流程
工作流能否稳定复制决定 AI 是偶发灵感源,还是科研工具目前更像“找路径—人类验证—重写证明”的循环

对关注 AI 科研能力的科技读者,这件事的动作建议很直接:别只看模型能不能吐出答案,要看它能不能给出人类研究者没想到的中间结构。评估科研模型时,应该把“可验证的新路径”单独列出来,而不是只统计正确率和题目数量。

对数学发现机制感兴趣的读者,这件事也提供了一个更现实的判断框架:数学发现不只有终稿证明,还包括选路、猜想、连接、压缩和审查。AI 现在更可能改变的是前半段,尤其是“找路”和“撞连接”。后半段仍然贵,贵在专家时间。

这也会影响 AI 工具团队的产品方向。

如果目标是服务科研,不一定要把模型包装成自动定理机器。更有用的设计,可能是让模型保留推理分叉、标注使用的公式来源、提示可能的类比领域,并方便专家快速删错、改写和复核。

采购或试用这类工具的研究团队,也该延后一个冲动:不要因为一次案例就把它当成可靠证明系统。更稳的做法,是把它放进低风险探索环节,让人类研究者决定哪些输出值得进入正式证明流程。

回到 Price 这次案例,它的分量在于破局,不在于定案。

一个没有高等数学训练的业余爱好者,借助 GPT-5.4 Pro,把一个约60年的问题推到了专家桌面上。这当然重要。但它说明的不是数学家被替代,而是数学发现链条里多了一个新的前端:会乱撞,也可能撞出此前没人连上的路。

真正的分水岭不在今天这个标题里,而在下一步:这条公式连接能否解决相邻问题,能否被写成稳定方法,能否经受独立数学家的复核。

如果不能,它就是一次漂亮案例。若能,它才配被写进 AI 参与数学发现的认真账本。