Timothy Gowers 最近写了一篇博客。语气不兴奋,但事情很重。
一位菲尔兹奖得主,把 Nathanson 论文里几个加性数论问题交给 ChatGPT 5.5 Pro。模型在很少人工数学输入下,约一小时内给出结果,还把证明整理成接近 LaTeX note 的样子。
这事不该被写成“AI 终于会做数学”。这个问题太旧,也太粗。
更值得盯的是另一件事:一些原本适合博士生、初学研究者进入的开放问题,可能正在被强模型提前扫一遍。浅水区还在,但水位变了。
Gowers 测了什么,模型做到了哪一步
这次问题来自 Mel Nathanson 关于加性数论的一组问题。
背景可以压得很短:给一个整数集合 A,sumset 大致就是所有 a+b 组成的新集合。研究者关心的是,给定 A 的大小,A+A 或更一般的 hA 能出现多少种规模;如果要求 A 放在一个尽量短的区间里,这个区间需要多长。
这类题不靠名词吓人。定义清楚,问题开放,难点在构造。
| 问题 | ChatGPT 5.5 Pro 的动作 | 目前状态 |
|---|---|---|
| Nathanson 的二元和集问题 | 使用更高效的 Sidon set,把相关直径上界推进到二次量级 | Gowers 认为基本正确 |
| restricted sumset 版本 | 处理“不允许 a=b”的版本,并完成类似论证 | 被合并整理成一份 note |
| 更一般的 h 情形 | 尝试把 Rajagopal 的指数上界改进到 exp(k^alpha) 量级 | Rajagopal 初步认为看起来正确 |
这里必须把刹车踩住。
这些结果不是正式发表,也不是同行评审结论。Gowers 的学术分量很重,但数学不靠名望盖章。最后还是要看证明细节,经得起多少人逐行检查。
但把它轻轻放过也不对。
模型不是只给了几句漂亮废话。按 Gowers 的记录,它至少完成了一串研究动作:识别问题结构,调用相邻工具,替换关键构造,写出证明文本,再尝试推广。
这已经越过了很多人对“聊天机器人”的旧印象。
重要的不是会不会做题,而是哪些题先失去稀缺性
我更在意的是这次暴露出来的题目类型。
很多组合数学、数论论文会在结尾留下自然问题。作者未必有时间继续做。后来者、博士生、刚入门的研究者,就从这些问题里找入口。
这套机制很朴素,也很重要。它给新人提供一个可训练的坡度:查文献,试构造,修证明,写成文。
ChatGPT 5.5 Pro 这次碰到的,正接近这种题型:
- 定义相对干净;
- 已有工具离得不远;
- 题目正式开放;
- 难点更像“把几块积木拼对”,而不是发明新语言。
大模型最容易吃掉的,可能就是这类问题。
它不需要像 Grothendieck 那样改写数学版图。它只要能在已有文献附近高速试错,就足以压低一批入门级成果的含金量。
这对博士生最直接。
过去选题时,一个小开放问题只要没人做、难度合适,就有训练价值。现在导师和学生要多做一步:先让强模型打一轮。能被模型很快拼出来的题,仍可用于练习,但不太适合当作主要成果押注。
动作会变得很具体:
| 受影响对象 | 以前常见做法 | 现在更该增加的动作 |
|---|---|---|
| 博士生、初学研究者 | 从论文末尾挑一个自然开放问题,查文献后开做 | 用强模型做预检,再人工审计证明,判断题目是否还有研究弹性 |
| 导师、课题组 | 用小问题训练构造和写作 | 更早训练问题筛选、反例意识、证明审计和方向判断 |
这不是说小问题没价值。恰恰相反,小问题仍是训练入口。
但它不能只因为“还开放”就自动值钱。开放问题也会通货膨胀。
“天下熙熙,皆为利来。”放在学术里,利不只是钱,也是论文、声誉、毕业时间和注意力。AI 一旦能快速处理低悬开放问题,题目的标价就要重算。
谁能判断什么题值得问,谁能验证模型哪里偷换,谁能把局部技巧接到更大的结构里,谁的价值会上升。
接下来该看什么:独立验证和稳定复现
现在还不能从一篇博客推出“AI 已经全面超过数学家”。证据不够。
更稳妥的判断是:ChatGPT 5.5 Pro 至少在某些结构清楚、工具相邻的研究问题上,表现出了接近研究助手的能力。它能推进,不只会润色。
接下来最该看两个变量。
第一,证明能不能被独立审计。
Gowers 认为第一个结果基本正确,Rajagopal 也初步认可更一般 h 的改进看起来正确。但“看起来正确”不是终点。数学里最便宜的是流畅文本,最贵的是无漏洞证明。
第二,类似问题能不能稳定复现。
如果只是一次漂亮偶然,影响有限。如果不同数学家把相近类型的问题交给模型,它都能较快找到构造、写出可审计证明,那开放问题生态就真的要变。
这里还有一个现实约束:验证能力不会自动普及。
模型可以让更多人更快产出“像证明的东西”,也会制造更多需要审稿、核查、纠错的文本。人类数学家没有退场,反而会被推向更硬的位置:当裁判,当架构师,当选题的人。
这对训练体系不是坏事,但会很疼。
过去,很多研究训练把“解决一个小开放问题”当作里程碑。以后这个里程碑要加条件:这个问题是否经得起模型预检;证明是否经得起人类审计;结果是否通向更深的问题。
模型看着更强,人的工作反而更靠上游。
被削弱的不是数学家的价值,而是机械型研究劳动的稀缺性。会算、会拼、会写证明草稿,仍然有用,但不再足够。
这和 PC 进入办公室有一点像,但不完全一样。电子表格没有消灭财务人员,却消灭了大量手工制表的稀缺性。强模型进入数学研究,也未必消灭数学家;它先压低的是“把已有工具拼成一个小结果”的溢价。
Gowers 这次测试真正刺人的地方就在这里。
不是机器抢走了山顶。是半山腰突然多了一段电梯。以后谁还在爬,谁只是搭电梯,谁能判断该不该换一座山,会分得更清楚。
