Timothy Gowers 最近写了一篇博客。语气不兴奋,但事情很重。

一位菲尔兹奖得主,把 Nathanson 论文里几个加性数论问题交给 ChatGPT 5.5 Pro。模型在很少人工数学输入下,约一小时内给出结果,还把证明整理成接近 LaTeX note 的样子。

这事不该被写成“AI 终于会做数学”。这个问题太旧,也太粗。

更值得盯的是另一件事:一些原本适合博士生、初学研究者进入的开放问题,可能正在被强模型提前扫一遍。浅水区还在,但水位变了。

Gowers 测了什么,模型做到了哪一步

这次问题来自 Mel Nathanson 关于加性数论的一组问题。

背景可以压得很短:给一个整数集合 A,sumset 大致就是所有 a+b 组成的新集合。研究者关心的是,给定 A 的大小,A+A 或更一般的 hA 能出现多少种规模;如果要求 A 放在一个尽量短的区间里,这个区间需要多长。

这类题不靠名词吓人。定义清楚,问题开放,难点在构造。

问题ChatGPT 5.5 Pro 的动作目前状态
Nathanson 的二元和集问题使用更高效的 Sidon set,把相关直径上界推进到二次量级Gowers 认为基本正确
restricted sumset 版本处理“不允许 a=b”的版本,并完成类似论证被合并整理成一份 note
更一般的 h 情形尝试把 Rajagopal 的指数上界改进到 exp(k^alpha) 量级Rajagopal 初步认为看起来正确

这里必须把刹车踩住。

这些结果不是正式发表,也不是同行评审结论。Gowers 的学术分量很重,但数学不靠名望盖章。最后还是要看证明细节,经得起多少人逐行检查。

但把它轻轻放过也不对。

模型不是只给了几句漂亮废话。按 Gowers 的记录,它至少完成了一串研究动作:识别问题结构,调用相邻工具,替换关键构造,写出证明文本,再尝试推广。

这已经越过了很多人对“聊天机器人”的旧印象。

重要的不是会不会做题,而是哪些题先失去稀缺性

我更在意的是这次暴露出来的题目类型。

很多组合数学、数论论文会在结尾留下自然问题。作者未必有时间继续做。后来者、博士生、刚入门的研究者,就从这些问题里找入口。

这套机制很朴素,也很重要。它给新人提供一个可训练的坡度:查文献,试构造,修证明,写成文。

ChatGPT 5.5 Pro 这次碰到的,正接近这种题型:

  • 定义相对干净;
  • 已有工具离得不远;
  • 题目正式开放;
  • 难点更像“把几块积木拼对”,而不是发明新语言。

大模型最容易吃掉的,可能就是这类问题。

它不需要像 Grothendieck 那样改写数学版图。它只要能在已有文献附近高速试错,就足以压低一批入门级成果的含金量。

这对博士生最直接。

过去选题时,一个小开放问题只要没人做、难度合适,就有训练价值。现在导师和学生要多做一步:先让强模型打一轮。能被模型很快拼出来的题,仍可用于练习,但不太适合当作主要成果押注。

动作会变得很具体:

受影响对象以前常见做法现在更该增加的动作
博士生、初学研究者从论文末尾挑一个自然开放问题,查文献后开做用强模型做预检,再人工审计证明,判断题目是否还有研究弹性
导师、课题组用小问题训练构造和写作更早训练问题筛选、反例意识、证明审计和方向判断

这不是说小问题没价值。恰恰相反,小问题仍是训练入口。

但它不能只因为“还开放”就自动值钱。开放问题也会通货膨胀。

“天下熙熙,皆为利来。”放在学术里,利不只是钱,也是论文、声誉、毕业时间和注意力。AI 一旦能快速处理低悬开放问题,题目的标价就要重算。

谁能判断什么题值得问,谁能验证模型哪里偷换,谁能把局部技巧接到更大的结构里,谁的价值会上升。

接下来该看什么:独立验证和稳定复现

现在还不能从一篇博客推出“AI 已经全面超过数学家”。证据不够。

更稳妥的判断是:ChatGPT 5.5 Pro 至少在某些结构清楚、工具相邻的研究问题上,表现出了接近研究助手的能力。它能推进,不只会润色。

接下来最该看两个变量。

第一,证明能不能被独立审计。

Gowers 认为第一个结果基本正确,Rajagopal 也初步认可更一般 h 的改进看起来正确。但“看起来正确”不是终点。数学里最便宜的是流畅文本,最贵的是无漏洞证明。

第二,类似问题能不能稳定复现。

如果只是一次漂亮偶然,影响有限。如果不同数学家把相近类型的问题交给模型,它都能较快找到构造、写出可审计证明,那开放问题生态就真的要变。

这里还有一个现实约束:验证能力不会自动普及。

模型可以让更多人更快产出“像证明的东西”,也会制造更多需要审稿、核查、纠错的文本。人类数学家没有退场,反而会被推向更硬的位置:当裁判,当架构师,当选题的人。

这对训练体系不是坏事,但会很疼。

过去,很多研究训练把“解决一个小开放问题”当作里程碑。以后这个里程碑要加条件:这个问题是否经得起模型预检;证明是否经得起人类审计;结果是否通向更深的问题。

模型看着更强,人的工作反而更靠上游。

被削弱的不是数学家的价值,而是机械型研究劳动的稀缺性。会算、会拼、会写证明草稿,仍然有用,但不再足够。

这和 PC 进入办公室有一点像,但不完全一样。电子表格没有消灭财务人员,却消灭了大量手工制表的稀缺性。强模型进入数学研究,也未必消灭数学家;它先压低的是“把已有工具拼成一个小结果”的溢价。

Gowers 这次测试真正刺人的地方就在这里。

不是机器抢走了山顶。是半山腰突然多了一段电梯。以后谁还在爬,谁只是搭电梯,谁能判断该不该换一座山,会分得更清楚。