OpenAI这次把话说得比上次小,也比上次硬。

不是“GPT-5解决一堆未解难题”,而是一款新的通用推理模型,针对Paul Erdős在1946年提出的一个离散几何猜想,给出反例和证明。问题围绕几何构造里的单位距离数量。长期以来,数学家普遍认为接近方格网格的方案大概就是最优方向。OpenAI称,模型找到了更好的构造。

这事最反常的地方不在“AI又会数学了”。这种话过去一年听得太多。

真正该看的,是OpenAI这次有没有把上次的坑补上:七个月前,OpenAI前副总裁Kevin Weil曾在X上称GPT-5解决了10个此前未解的Erdős问题,后来被指出只是找到了文献里已有的解法,帖子也删了。对一家卖“AI科学家”叙事的公司来说,这种误报比产品演示翻车更伤。

这次不同。支持性评述里出现了Noga Alon、Melanie Wood、Thomas Bloom。尤其是Bloom,他维护Erdős Problems网站,也曾批评上次GPT-5说法“严重误导”。他这次愿意站出来给出支持性评论,本身就是一个信号。

信号,不是盖章。

发生了什么:一个1946年的几何猜想被AI反驳

信息可以压成几条:

  • OpenAI称新通用推理模型给出原创证明,反驳Erdős在1946年提出的离散几何猜想。
  • 该猜想与几何构造中的单位距离数量有关。
  • 模型找到的新构造,据称优于近80年来被广泛相信的方格网格式方案。
  • 这不是专门为该题打造的数学系统,而是OpenAI所说的“通用推理模型”。
  • 这次有外部数学家提供支持性评述,但还不等于数学共同体最终接纳。

这里的重点不是“Erdős”这个名字有多响,而是问题类型很硬。

Erdős留下过大量问题,很多看起来描述简单,实际卡人几十年。离散几何尤其残酷:你以为是在画点、连线、数距离,最后常常钻进组合结构、构造极值和证明边界的泥地里。

AI如果只是在竞赛题里刷分,意义有限。竞赛题大多有标准答案、套路密集、训练数据丰富。科研问题不同。它没有题库味,也没有“做完第3问”的提示。

这次如果证明成立,说明模型至少做了一件更接近研究的事:提出一个数学家此前没有充分探索的新构造,并把它推到可论证的程度。

这就越过了一条线。

不是越过“替代数学家”的线,而是越过“只能复述和拼接”的线。

为什么重要:这次补强的是可信度,不是口号

OpenAI过去最容易犯的错,是把模型能力讲成公司叙事。数学恰好不吃这一套。

代码演示可以跑通一次,产品发布可以靠场景包装,数学证明不行。证明要能被别人拆。拆不动,才算数。

这次比上次可信,主要因为三个变量变了:

对照项七个月前GPT-5说法本次新模型说法我的判断
问题范围多个Erdős问题一个1946年离散几何猜想范围收窄,更容易核查
结果性质后被指出是已有文献解法OpenAI称为原创反驳证明可信度提高,但仍待复核
外部评述遭Thomas Bloom等批评Alon、Wood、Bloom提供支持性评述发布链条更像科研流程
系统定位GPT-5被包装成解题者通用推理模型,不是专用系统对AI科研叙事更关键

这张表里最重要的是第三行。

同一个曾经批评OpenAI误导的人,这次愿意提供支持性评论。这个变化不是装饰。它说明OpenAI至少意识到,数学成果不能靠公关部门单线输出。

但我不想把它写成“AI数学突破已获认证”。这句话太省事,也太危险。

数学里的“原创”很麻烦。它不只是模型没有复制某一段文字。更难的是:这个构造思想是否等价于旧文献里的某个变体?证明里有没有隐含假设?边界条件是否被悄悄绕开?有没有一个看似微小、实际致命的漏洞?

上次乌龙就发生在这层。模型找到了东西,公司以为是新东西,后来发现文献里早有。

所以这次真正新增的,不是OpenAI又说了一次“我们会做数学”。新增的是:它把范围缩小了,把外部数学家放进了发布链条,也把问题推到了更可核查的位置。

这是一种进步。

也是一种被数学纪律驯服后的进步。

谁受影响:数学家、科研团队和AI科学叙事

普通用户明天不会因为这个结果少写一行PPT。受影响最直接的是两类人。

一类是研究型数学家。

他们不会因为OpenAI公告就失业。恰恰相反,如果这类模型真的可靠,数学家的验证、抽象和归纳工作会更重。AI可以提出候选构造,可以堆出证明草稿,可以把一些跨领域联想提前筛出来。但最后要问一句:这东西到底是不是数学?

这句话仍然要人来判。

另一类是大学实验室和企业研发部门。

他们正在评估AI能不能从“答题工具”变成“假设生成工具”。这比聊天机器人重要得多。科研里很多瓶颈不是没有数据,而是缺少能在复杂约束里提出新假设的机器。药物设计、材料发现、工程优化,都有这种需求。

如果通用推理模型能在离散几何里找到新构造,它至少给这些领域一个可追踪的参照案例:模型不只是在答案库里捞鱼,也可能在解空间里开路。

但别把参照案例说成生产线。

一次成功只能证明能力上限,不能证明稳定产能。科研最怕“偶然灵光”被包装成“工业流水”。这正是AI公司最爱干、也最容易翻车的地方。

我更在意后面的三道门

这件事可喜,但还没到敲锣的时候。

后面有三道门。

第一道门:完整证明是否公开到足够细节。

数学不怕慢,怕糊。一个证明如果只能通过公司公告和专家短评存在,它就还只是新闻,不是共同知识。

第二道门:更多独立数学家能否复核。

几位重量级数学家的支持性评述很重要,但数学共同体接受一个结果,靠的是反复拆解。尤其是AI给出的证明,更需要有人检查引用、等价构造、推理断点和隐含条件。

第三道门:同一模型能否在其他开放问题上复现类似成果。

这才是真正的分水岭。一个模型偶然找到漂亮构造,和一个模型持续帮助科研团队缩短探索路径,是两件事。前者是火花,后者才是工具。

我倾向于把这次看成“AI进入数学前沿的有效样本”,而不是“AI科学家诞生”。

这个判断听起来保守,但更接近现实。

AI现在最强的地方,不是像人类大师那样突然顿悟,而是在巨大搜索空间里高速试探,把人类来不及看的候选路线推到桌面上。它能把筛选成本降下来,也会把验证成本抬上去。

天下熙熙,皆为利来。放到AI行业,就是公司急着把一次科研成果变成商业叙事,投资人急着把能力上限折成估值,用户急着把演示当成常态能力。

数学偏偏慢。

它不在乎你融资多少,也不在乎发布会多漂亮。它只问证明能不能站住。

这条线,越过了,但没走稳

我认可这次的价值。

范围收窄,外部评述加入,前次误报的教训也被纳入发布方式里。OpenAI这回少见地做得更像一个科研参与者,而不是只像一个叙事机器。

但代价还没结算完。

如果证明被更广泛接受,这会成为AI参与纯数学研究的一个标志性案例。它会改变科研团队对通用推理模型的预算、工作流和信任边界。

如果后续发现证明有洞,或者所谓原创构造仍与旧文献高度等价,那OpenAI会第二次伤到同一个地方:不是模型不够强,而是公司太急着把模型能力翻译成历史性胜利。

模型看着更强,叙事更要收住。

AI数学发现真正越过的线,不是“机器赢了数学家”。那是廉价故事。

它越过的是另一个更实际的线:通用模型开始有能力把人类研究者带到一个值得认真检查的新位置。能不能从“值得检查”走到“正式写入数学”,还要看证明本身。

门票不是发布会。

门票是可复核的证明。