ChatGPT 5.5 Pro 做出博士级数学？Gowers 这次测试，真正刺到的是选题门槛

核心摘要 Summary

菲尔兹奖得主 Timothy Gowers 记录了一次使用 ChatGPT 5.5 Pro 的经历：模型在很少人工数学输入下，约一小时内给出并整理了几项看似可验证的加性数论结果。
结果仍需验证，不等于同行评审通过；但它已经足够提醒博士生和导师：低悬开放问题的价值正在重估。
接下来最该看两件事：证明能否被独立审计，以及类似问题是否会被模型稳定复现。

Timothy Gowers 最近写了一篇博客。语气不兴奋，但事情很重。

一位菲尔兹奖得主，把 Nathanson 论文里几个加性数论问题交给 ChatGPT 5.5 Pro。模型在很少人工数学输入下，约一小时内给出结果，还把证明整理成接近 LaTeX note 的样子。

这事不该被写成“AI 终于会做数学”。这个问题太旧，也太粗。

更值得盯的是另一件事：一些原本适合博士生、初学研究者进入的开放问题，可能正在被强模型提前扫一遍。浅水区还在，但水位变了。

Gowers 测了什么，模型做到了哪一步

这次问题来自 Mel Nathanson 关于加性数论的一组问题。

背景可以压得很短：给一个整数集合 A，sumset 大致就是所有 a+b 组成的新集合。研究者关心的是，给定 A 的大小，A+A 或更一般的 hA 能出现多少种规模；如果要求 A 放在一个尽量短的区间里，这个区间需要多长。

这类题不靠名词吓人。定义清楚，问题开放，难点在构造。

问题	ChatGPT 5.5 Pro 的动作	目前状态
Nathanson 的二元和集问题	使用更高效的 Sidon set，把相关直径上界推进到二次量级	Gowers 认为基本正确
restricted sumset 版本	处理“不允许 a=b”的版本，并完成类似论证	被合并整理成一份 note
更一般的 h 情形	尝试把 Rajagopal 的指数上界改进到 exp(k^alpha) 量级	Rajagopal 初步认为看起来正确

这里必须把刹车踩住。

这些结果不是正式发表，也不是同行评审结论。Gowers 的学术分量很重，但数学不靠名望盖章。最后还是要看证明细节，经得起多少人逐行检查。

但把它轻轻放过也不对。

模型不是只给了几句漂亮废话。按 Gowers 的记录，它至少完成了一串研究动作：识别问题结构，调用相邻工具，替换关键构造，写出证明文本，再尝试推广。

这已经越过了很多人对“聊天机器人”的旧印象。

重要的不是会不会做题，而是哪些题先失去稀缺性

我更在意的是这次暴露出来的题目类型。

很多组合数学、数论论文会在结尾留下自然问题。作者未必有时间继续做。后来者、博士生、刚入门的研究者，就从这些问题里找入口。

这套机制很朴素，也很重要。它给新人提供一个可训练的坡度：查文献，试构造，修证明，写成文。

ChatGPT 5.5 Pro 这次碰到的，正接近这种题型：

定义相对干净；
已有工具离得不远；
题目正式开放；
难点更像“把几块积木拼对”，而不是发明新语言。

大模型最容易吃掉的，可能就是这类问题。

它不需要像 Grothendieck 那样改写数学版图。它只要能在已有文献附近高速试错，就足以压低一批入门级成果的含金量。

这对博士生最直接。

过去选题时，一个小开放问题只要没人做、难度合适，就有训练价值。现在导师和学生要多做一步：先让强模型打一轮。能被模型很快拼出来的题，仍可用于练习，但不太适合当作主要成果押注。

动作会变得很具体：

受影响对象	以前常见做法	现在更该增加的动作
博士生、初学研究者	从论文末尾挑一个自然开放问题，查文献后开做	用强模型做预检，再人工审计证明，判断题目是否还有研究弹性
导师、课题组	用小问题训练构造和写作	更早训练问题筛选、反例意识、证明审计和方向判断

这不是说小问题没价值。恰恰相反，小问题仍是训练入口。

但它不能只因为“还开放”就自动值钱。开放问题也会通货膨胀。

“天下熙熙，皆为利来。”放在学术里，利不只是钱，也是论文、声誉、毕业时间和注意力。AI 一旦能快速处理低悬开放问题，题目的标价就要重算。

谁能判断什么题值得问，谁能验证模型哪里偷换，谁能把局部技巧接到更大的结构里，谁的价值会上升。

接下来该看什么：独立验证和稳定复现

现在还不能从一篇博客推出“AI 已经全面超过数学家”。证据不够。

更稳妥的判断是：ChatGPT 5.5 Pro 至少在某些结构清楚、工具相邻的研究问题上，表现出了接近研究助手的能力。它能推进，不只会润色。

接下来最该看两个变量。

第一，证明能不能被独立审计。

Gowers 认为第一个结果基本正确，Rajagopal 也初步认可更一般 h 的改进看起来正确。但“看起来正确”不是终点。数学里最便宜的是流畅文本，最贵的是无漏洞证明。

第二，类似问题能不能稳定复现。

如果只是一次漂亮偶然，影响有限。如果不同数学家把相近类型的问题交给模型，它都能较快找到构造、写出可审计证明，那开放问题生态就真的要变。

这里还有一个现实约束：验证能力不会自动普及。

模型可以让更多人更快产出“像证明的东西”，也会制造更多需要审稿、核查、纠错的文本。人类数学家没有退场，反而会被推向更硬的位置：当裁判，当架构师，当选题的人。

这对训练体系不是坏事，但会很疼。

过去，很多研究训练把“解决一个小开放问题”当作里程碑。以后这个里程碑要加条件：这个问题是否经得起模型预检；证明是否经得起人类审计；结果是否通向更深的问题。

模型看着更强，人的工作反而更靠上游。

被削弱的不是数学家的价值，而是机械型研究劳动的稀缺性。会算、会拼、会写证明草稿，仍然有用，但不再足够。

这和 PC 进入办公室有一点像，但不完全一样。电子表格没有消灭财务人员，却消灭了大量手工制表的稀缺性。强模型进入数学研究，也未必消灭数学家；它先压低的是“把已有工具拼成一个小结果”的溢价。

Gowers 这次测试真正刺人的地方就在这里。

不是机器抢走了山顶。是半山腰突然多了一段电梯。以后谁还在爬，谁只是搭电梯，谁能判断该不该换一座山，会分得更清楚。

ChatGPT 5.5 Pro 做出博士级数学？Gowers 这次测试，真正刺到的是选题门槛

选题门槛

测试结果

完成动作

结论未定

题型受压

工具相邻

稀缺下降

训练改写

学生侧

导师侧

后续变量

独立审计

稳定复现

人类位置

裁判角色

架构角色

Gowers 测了什么，模型做到了哪一步

重要的不是会不会做题，而是哪些题先失去稀缺性

接下来该看什么：独立验证和稳定复现