OpenAI这次把话说得比上次小,也比上次硬。
不是“GPT-5解决一堆未解难题”,而是一款新的通用推理模型,针对Paul Erdős在1946年提出的一个离散几何猜想,给出反例和证明。问题围绕几何构造里的单位距离数量。长期以来,数学家普遍认为接近方格网格的方案大概就是最优方向。OpenAI称,模型找到了更好的构造。
这事最反常的地方不在“AI又会数学了”。这种话过去一年听得太多。
真正该看的,是OpenAI这次有没有把上次的坑补上:七个月前,OpenAI前副总裁Kevin Weil曾在X上称GPT-5解决了10个此前未解的Erdős问题,后来被指出只是找到了文献里已有的解法,帖子也删了。对一家卖“AI科学家”叙事的公司来说,这种误报比产品演示翻车更伤。
这次不同。支持性评述里出现了Noga Alon、Melanie Wood、Thomas Bloom。尤其是Bloom,他维护Erdős Problems网站,也曾批评上次GPT-5说法“严重误导”。他这次愿意站出来给出支持性评论,本身就是一个信号。
信号,不是盖章。
发生了什么:一个1946年的几何猜想被AI反驳
信息可以压成几条:
- OpenAI称新通用推理模型给出原创证明,反驳Erdős在1946年提出的离散几何猜想。
- 该猜想与几何构造中的单位距离数量有关。
- 模型找到的新构造,据称优于近80年来被广泛相信的方格网格式方案。
- 这不是专门为该题打造的数学系统,而是OpenAI所说的“通用推理模型”。
- 这次有外部数学家提供支持性评述,但还不等于数学共同体最终接纳。
这里的重点不是“Erdős”这个名字有多响,而是问题类型很硬。
Erdős留下过大量问题,很多看起来描述简单,实际卡人几十年。离散几何尤其残酷:你以为是在画点、连线、数距离,最后常常钻进组合结构、构造极值和证明边界的泥地里。
AI如果只是在竞赛题里刷分,意义有限。竞赛题大多有标准答案、套路密集、训练数据丰富。科研问题不同。它没有题库味,也没有“做完第3问”的提示。
这次如果证明成立,说明模型至少做了一件更接近研究的事:提出一个数学家此前没有充分探索的新构造,并把它推到可论证的程度。
这就越过了一条线。
不是越过“替代数学家”的线,而是越过“只能复述和拼接”的线。
为什么重要:这次补强的是可信度,不是口号
OpenAI过去最容易犯的错,是把模型能力讲成公司叙事。数学恰好不吃这一套。
代码演示可以跑通一次,产品发布可以靠场景包装,数学证明不行。证明要能被别人拆。拆不动,才算数。
这次比上次可信,主要因为三个变量变了:
| 对照项 | 七个月前GPT-5说法 | 本次新模型说法 | 我的判断 |
|---|---|---|---|
| 问题范围 | 多个Erdős问题 | 一个1946年离散几何猜想 | 范围收窄,更容易核查 |
| 结果性质 | 后被指出是已有文献解法 | OpenAI称为原创反驳证明 | 可信度提高,但仍待复核 |
| 外部评述 | 遭Thomas Bloom等批评 | Alon、Wood、Bloom提供支持性评述 | 发布链条更像科研流程 |
| 系统定位 | GPT-5被包装成解题者 | 通用推理模型,不是专用系统 | 对AI科研叙事更关键 |
这张表里最重要的是第三行。
同一个曾经批评OpenAI误导的人,这次愿意提供支持性评论。这个变化不是装饰。它说明OpenAI至少意识到,数学成果不能靠公关部门单线输出。
但我不想把它写成“AI数学突破已获认证”。这句话太省事,也太危险。
数学里的“原创”很麻烦。它不只是模型没有复制某一段文字。更难的是:这个构造思想是否等价于旧文献里的某个变体?证明里有没有隐含假设?边界条件是否被悄悄绕开?有没有一个看似微小、实际致命的漏洞?
上次乌龙就发生在这层。模型找到了东西,公司以为是新东西,后来发现文献里早有。
所以这次真正新增的,不是OpenAI又说了一次“我们会做数学”。新增的是:它把范围缩小了,把外部数学家放进了发布链条,也把问题推到了更可核查的位置。
这是一种进步。
也是一种被数学纪律驯服后的进步。
谁受影响:数学家、科研团队和AI科学叙事
普通用户明天不会因为这个结果少写一行PPT。受影响最直接的是两类人。
一类是研究型数学家。
他们不会因为OpenAI公告就失业。恰恰相反,如果这类模型真的可靠,数学家的验证、抽象和归纳工作会更重。AI可以提出候选构造,可以堆出证明草稿,可以把一些跨领域联想提前筛出来。但最后要问一句:这东西到底是不是数学?
这句话仍然要人来判。
另一类是大学实验室和企业研发部门。
他们正在评估AI能不能从“答题工具”变成“假设生成工具”。这比聊天机器人重要得多。科研里很多瓶颈不是没有数据,而是缺少能在复杂约束里提出新假设的机器。药物设计、材料发现、工程优化,都有这种需求。
如果通用推理模型能在离散几何里找到新构造,它至少给这些领域一个可追踪的参照案例:模型不只是在答案库里捞鱼,也可能在解空间里开路。
但别把参照案例说成生产线。
一次成功只能证明能力上限,不能证明稳定产能。科研最怕“偶然灵光”被包装成“工业流水”。这正是AI公司最爱干、也最容易翻车的地方。
我更在意后面的三道门
这件事可喜,但还没到敲锣的时候。
后面有三道门。
第一道门:完整证明是否公开到足够细节。
数学不怕慢,怕糊。一个证明如果只能通过公司公告和专家短评存在,它就还只是新闻,不是共同知识。
第二道门:更多独立数学家能否复核。
几位重量级数学家的支持性评述很重要,但数学共同体接受一个结果,靠的是反复拆解。尤其是AI给出的证明,更需要有人检查引用、等价构造、推理断点和隐含条件。
第三道门:同一模型能否在其他开放问题上复现类似成果。
这才是真正的分水岭。一个模型偶然找到漂亮构造,和一个模型持续帮助科研团队缩短探索路径,是两件事。前者是火花,后者才是工具。
我倾向于把这次看成“AI进入数学前沿的有效样本”,而不是“AI科学家诞生”。
这个判断听起来保守,但更接近现实。
AI现在最强的地方,不是像人类大师那样突然顿悟,而是在巨大搜索空间里高速试探,把人类来不及看的候选路线推到桌面上。它能把筛选成本降下来,也会把验证成本抬上去。
天下熙熙,皆为利来。放到AI行业,就是公司急着把一次科研成果变成商业叙事,投资人急着把能力上限折成估值,用户急着把演示当成常态能力。
数学偏偏慢。
它不在乎你融资多少,也不在乎发布会多漂亮。它只问证明能不能站住。
这条线,越过了,但没走稳
我认可这次的价值。
范围收窄,外部评述加入,前次误报的教训也被纳入发布方式里。OpenAI这回少见地做得更像一个科研参与者,而不是只像一个叙事机器。
但代价还没结算完。
如果证明被更广泛接受,这会成为AI参与纯数学研究的一个标志性案例。它会改变科研团队对通用推理模型的预算、工作流和信任边界。
如果后续发现证明有洞,或者所谓原创构造仍与旧文献高度等价,那OpenAI会第二次伤到同一个地方:不是模型不够强,而是公司太急着把模型能力翻译成历史性胜利。
模型看着更强,叙事更要收住。
AI数学发现真正越过的线,不是“机器赢了数学家”。那是廉价故事。
它越过的是另一个更实际的线:通用模型开始有能力把人类研究者带到一个值得认真检查的新位置。能不能从“值得检查”走到“正式写入数学”,还要看证明本身。
门票不是发布会。
门票是可复核的证明。
