OpenAI又碰Erdős猜想：这次AI数学发现更可信，但别急着封神

核心摘要 Summary

OpenAI称一款通用推理模型反驳了Erdős在1946年提出的离散几何猜想，给出了优于传统方格网格思路的新构造。
真正关键的增量不只是“AI解数学题”，而是这次有Noga Alon、Melanie Wood、Thomas Bloom等数学家提供支持性评述，可信度比七个月前那次GPT-5误报高得多。
我的判断是：AI已经摸到真实科研问题的门槛，但门槛后面还有公开证明、同行复核和可重复产出的硬账要算。

OpenAI这次把话说得比上次小，也比上次硬。

不是“GPT-5解决一堆未解难题”，而是一款新的通用推理模型，针对Paul Erdős在1946年提出的一个离散几何猜想，给出反例和证明。问题围绕几何构造里的单位距离数量。长期以来，数学家普遍认为接近方格网格的方案大概就是最优方向。OpenAI称，模型找到了更好的构造。

这事最反常的地方不在“AI又会数学了”。这种话过去一年听得太多。

真正该看的，是OpenAI这次有没有把上次的坑补上：七个月前，OpenAI前副总裁Kevin Weil曾在X上称GPT-5解决了10个此前未解的Erdős问题，后来被指出只是找到了文献里已有的解法，帖子也删了。对一家卖“AI科学家”叙事的公司来说，这种误报比产品演示翻车更伤。

这次不同。支持性评述里出现了Noga Alon、Melanie Wood、Thomas Bloom。尤其是Bloom，他维护Erdős Problems网站，也曾批评上次GPT-5说法“严重误导”。他这次愿意站出来给出支持性评论，本身就是一个信号。

信号，不是盖章。

发生了什么：一个1946年的几何猜想被AI反驳

信息可以压成几条：

OpenAI称新通用推理模型给出原创证明，反驳Erdős在1946年提出的离散几何猜想。
该猜想与几何构造中的单位距离数量有关。
模型找到的新构造，据称优于近80年来被广泛相信的方格网格式方案。
这不是专门为该题打造的数学系统，而是OpenAI所说的“通用推理模型”。
这次有外部数学家提供支持性评述，但还不等于数学共同体最终接纳。

这里的重点不是“Erdős”这个名字有多响，而是问题类型很硬。

Erdős留下过大量问题，很多看起来描述简单，实际卡人几十年。离散几何尤其残酷：你以为是在画点、连线、数距离，最后常常钻进组合结构、构造极值和证明边界的泥地里。

AI如果只是在竞赛题里刷分，意义有限。竞赛题大多有标准答案、套路密集、训练数据丰富。科研问题不同。它没有题库味，也没有“做完第3问”的提示。

这次如果证明成立，说明模型至少做了一件更接近研究的事：提出一个数学家此前没有充分探索的新构造，并把它推到可论证的程度。

这就越过了一条线。

不是越过“替代数学家”的线，而是越过“只能复述和拼接”的线。

为什么重要：这次补强的是可信度，不是口号

OpenAI过去最容易犯的错，是把模型能力讲成公司叙事。数学恰好不吃这一套。

代码演示可以跑通一次，产品发布可以靠场景包装，数学证明不行。证明要能被别人拆。拆不动，才算数。

这次比上次可信，主要因为三个变量变了：

对照项	七个月前GPT-5说法	本次新模型说法	我的判断
问题范围	多个Erdős问题	一个1946年离散几何猜想	范围收窄，更容易核查
结果性质	后被指出是已有文献解法	OpenAI称为原创反驳证明	可信度提高，但仍待复核
外部评述	遭Thomas Bloom等批评	Alon、Wood、Bloom提供支持性评述	发布链条更像科研流程
系统定位	GPT-5被包装成解题者	通用推理模型，不是专用系统	对AI科研叙事更关键

这张表里最重要的是第三行。

同一个曾经批评OpenAI误导的人，这次愿意提供支持性评论。这个变化不是装饰。它说明OpenAI至少意识到，数学成果不能靠公关部门单线输出。

但我不想把它写成“AI数学突破已获认证”。这句话太省事，也太危险。

数学里的“原创”很麻烦。它不只是模型没有复制某一段文字。更难的是：这个构造思想是否等价于旧文献里的某个变体？证明里有没有隐含假设？边界条件是否被悄悄绕开？有没有一个看似微小、实际致命的漏洞？

上次乌龙就发生在这层。模型找到了东西，公司以为是新东西，后来发现文献里早有。

所以这次真正新增的，不是OpenAI又说了一次“我们会做数学”。新增的是：它把范围缩小了，把外部数学家放进了发布链条，也把问题推到了更可核查的位置。

这是一种进步。

也是一种被数学纪律驯服后的进步。

谁受影响：数学家、科研团队和AI科学叙事

普通用户明天不会因为这个结果少写一行PPT。受影响最直接的是两类人。

一类是研究型数学家。

他们不会因为OpenAI公告就失业。恰恰相反，如果这类模型真的可靠，数学家的验证、抽象和归纳工作会更重。AI可以提出候选构造，可以堆出证明草稿，可以把一些跨领域联想提前筛出来。但最后要问一句：这东西到底是不是数学？

这句话仍然要人来判。

另一类是大学实验室和企业研发部门。

他们正在评估AI能不能从“答题工具”变成“假设生成工具”。这比聊天机器人重要得多。科研里很多瓶颈不是没有数据，而是缺少能在复杂约束里提出新假设的机器。药物设计、材料发现、工程优化，都有这种需求。

如果通用推理模型能在离散几何里找到新构造，它至少给这些领域一个可追踪的参照案例：模型不只是在答案库里捞鱼，也可能在解空间里开路。

但别把参照案例说成生产线。

一次成功只能证明能力上限，不能证明稳定产能。科研最怕“偶然灵光”被包装成“工业流水”。这正是AI公司最爱干、也最容易翻车的地方。

我更在意后面的三道门

这件事可喜，但还没到敲锣的时候。

后面有三道门。

第一道门：完整证明是否公开到足够细节。

数学不怕慢，怕糊。一个证明如果只能通过公司公告和专家短评存在，它就还只是新闻，不是共同知识。

第二道门：更多独立数学家能否复核。

几位重量级数学家的支持性评述很重要，但数学共同体接受一个结果，靠的是反复拆解。尤其是AI给出的证明，更需要有人检查引用、等价构造、推理断点和隐含条件。

第三道门：同一模型能否在其他开放问题上复现类似成果。

这才是真正的分水岭。一个模型偶然找到漂亮构造，和一个模型持续帮助科研团队缩短探索路径，是两件事。前者是火花，后者才是工具。

我倾向于把这次看成“AI进入数学前沿的有效样本”，而不是“AI科学家诞生”。

这个判断听起来保守，但更接近现实。

AI现在最强的地方，不是像人类大师那样突然顿悟，而是在巨大搜索空间里高速试探，把人类来不及看的候选路线推到桌面上。它能把筛选成本降下来，也会把验证成本抬上去。

天下熙熙，皆为利来。放到AI行业，就是公司急着把一次科研成果变成商业叙事，投资人急着把能力上限折成估值，用户急着把演示当成常态能力。

数学偏偏慢。

它不在乎你融资多少，也不在乎发布会多漂亮。它只问证明能不能站住。

这条线，越过了，但没走稳

我认可这次的价值。

范围收窄，外部评述加入，前次误报的教训也被纳入发布方式里。OpenAI这回少见地做得更像一个科研参与者，而不是只像一个叙事机器。

但代价还没结算完。

如果证明被更广泛接受，这会成为AI参与纯数学研究的一个标志性案例。它会改变科研团队对通用推理模型的预算、工作流和信任边界。

如果后续发现证明有洞，或者所谓原创构造仍与旧文献高度等价，那OpenAI会第二次伤到同一个地方：不是模型不够强，而是公司太急着把模型能力翻译成历史性胜利。

模型看着更强，叙事更要收住。

AI数学发现真正越过的线，不是“机器赢了数学家”。那是廉价故事。

它越过的是另一个更实际的线：通用模型开始有能力把人类研究者带到一个值得认真检查的新位置。能不能从“值得检查”走到“正式写入数学”，还要看证明本身。

门票不是发布会。

门票是可复核的证明。

OpenAI又碰Erdős猜想：这次AI数学发现更可信，但别急着封神

AI碰猜想

事件主线

新构造

可信增量

范围收窄

前次教训

旧解误判

影响对象

数学家

发生了什么：一个1946年的几何猜想被AI反驳

为什么重要：这次补强的是可信度，不是口号

谁受影响：数学家、科研团队和AI科学叙事

我更在意后面的三道门

这条线，越过了，但没走稳