100道研究级数学题,最后只剩2道没有被大模型解出。
这个数字很抓人,也很容易被读歪。它不是“AI攻克了100道开放数学难题”,也不是“数学家快没用了”。更准确的读法是:当模型可以多跑几次、用更重的思考模式时,它能覆盖的研究级数学问题变多了。
这件事有意思的地方,正在这里。
论文《Benchmarks in Leipzig》已经发布在arXiv,编号2606.05818。49名数学家参与整理了一个新基准:100道答案已知的研究级数学问题。题目涉及数学史综述、AI、代数几何、组合、表示论等方向。
我更在意的,不是“98题”这个漂亮数字,而是它到底证明了什么,又没证明什么。
莱比锡基准是什么:研究级,但不是开放难题
这套数据集的主要工作发生在德国莱比锡马克斯·普朗克数学科学研究所。那里有一个为期3天的工作坊,名字就叫“Benchmarks in Leipzig”。
后来,作者名单扩展到49名数学家。论文把这100道题做成基准,核心前提是:它们都是研究级问题,但答案已知。
这个设计很关键。
答案已知,才方便评测。研究级问题,又让它比普通考试题更接近数学研究现场。它卡在两者中间:比标准题库更难、更散,也比真正开放难题更适合做基准。
和常见数学基准放在一起看,差别更清楚:
| 对照项 | 常见数学基准 | 莱比锡基准 |
|---|---|---|
| 题目来源 | 教育、竞赛或标准题库 | 数学家整理的研究级问题 |
| 答案状态 | 通常有标准答案 | 100题答案已知 |
| 题目方向 | 更便于统一评分 | 覆盖数学史综述、AI、代数几何、组合、表示论等 |
| 主要价值 | 适合横向跑分 | 更接近专业数学语境 |
| 主要限制 | 离研究现场可能较远 | 样本只有100题,不能代表全部数学研究 |
这也解释了为什么它值得看。
过去谈LLM数学能力,很多讨论围绕MATH、GSM8K、Minerva这类基准。它们有用,尤其适合看模型在标准问题上的进步。但数学研究不是只做标准题。专业数学里的问题常常更长、更偏、更依赖背景知识。
莱比锡基准补上的,是这块缺口。
不过,缺口不等于全景。100道题很有价值,但不能外推成“LLM已经普遍达到数学家研究能力”。一叶知秋可以,不能以叶代林。
未解题从41道降到2道:进步很大,变量也很大
论文的评测分三阶段。
第一阶段,5个SOTA LLM对每道题做单次尝试。第二阶段,选其中3个模型,每题运行20次。第三阶段,2个heavy-thinking模型每题尝试3次。
结果是:完全未解出的题数,从41道降到16道,再降到2道。
| 阶段 | 评测方式 | 完全未解题数量 | 更合理的解读 |
|---|---|---|---|
| Stage 1 | 5个SOTA LLM单次尝试 | 41 | 单次解题仍有明显空白 |
| Stage 2 | 3个模型每题20次 | 16 | 多次采样显著提高命中率 |
| Stage 3 | 2个heavy-thinking模型每题3次 | 2 | 重思考模型扩大了解题覆盖面 |
这组数字说明,模型确实变强了。至少在这100道答案已知的研究级问题上,前沿LLM已经能触达不少过去很难用自动化方式处理的数学材料。
但这里不能偷换概念。
“每题20次”和“单次解出”不是一回事。多跑几次,本来就会提高命中率。尤其是数学题,模型可能某一次走对证明路径,下一次又在细节上偏航。把20次里的最好结果拿出来,当然会比单次尝试更好看。
heavy-thinking模型也是同理。它们往往会花更多推理预算,尝试更长链路。结果变好,既反映能力提升,也反映计算投入增加。
所以,这篇论文更像是在提醒我们:评测LLM数学能力,不能只问“会不会”。还要问三个问题:
- 是单次会,还是多次采样后有一次会?
- 是普通推理会,还是重思考模式下会?
- 是能给出可审计证明,还是只给出看似合理的答案?
这几个问题,对技术读者很实际。
如果你在做数学辅助工具,不该只看“总覆盖率”。更该把产品设计成可多轮生成、可比较候选解、可让人审证明的工作流。换句话说,不要把模型当一次性判题机,而要当一个会反复试探的研究助手。
如果你是数学与AI交叉研究者,这个基准的价值也不在排行榜。它更适合拿来研究“模型在哪些题型上反复失败,在哪些题型上多跑就能撞中”。这比单个总分更有信息量。
它影响的是研究流程,不是数学家的位置
这项基准最容易被夸大的地方,是把“覆盖更多题”说成“替代数学家”。
目前看,还没到这一步。
原因很简单:数学研究不只需要答案。它还需要定义是否用得准,证明是否完整,引用是否可靠,结论是否能被同行检查。模型能生成候选路径,是好事。但候选路径要变成数学结果,中间还有验证成本。
这也是普通开发者和研究团队最该调整预期的地方。
短期更现实的动作,不是“把数学家换成模型”,而是把LLM放进三个环节:找相关背景、生成候选思路、补充例子和反例。真正要谨慎的,是最后一步:证明核验。
采购或自建工具时,也不该只问供应商“数学能力多少分”。更该问:
| 要问的问题 | 为什么重要 |
|---|---|
| 同一道题多次运行是否稳定 | 防止只挑最好样本展示 |
| 能否输出完整可审计证明 | 数学结论不能只靠口头答案 |
| 是否做过去污染检查 | 研究级题目也可能有相近材料被模型见过 |
| 不同领域表现是否分开统计 | 代数几何、组合、表示论不能混成一个总分 |
论文原材料没有提供具体模型名称、单模型分数,也没有给出足够细的题目难度分布。外界因此不能把它当成产品排行榜。
这不是挑刺,而是边界。
莱比锡基准真正推进的,是评测问题本身。它把问题从“模型会不会做标准数学题”,推到了“模型在研究级材料上,经过多轮尝试和重思考后,能覆盖到哪里”。
这个问题更接近现实,也更难被一句口号概括。
回到开头那2道未解题。它们当然吸引眼球,但更重要的是前面那98道是怎么来的。靠单次能力,还是靠多次采样?靠普通推理,还是靠更重的计算预算?靠可验证证明,还是靠人来筛选正确结果?
答案不同,结论就不同。
LLM数学能力在进步,这个判断可以成立。把它说成已经普遍具备数学家的研究能力,证据还不够。
