GPT-5 被不少人嫌弃过:写邮件没惊艳到哪儿,整理文档也只是更顺一点。

但同一条模型线,在理论物理学家 Alex Lupsasca 手里,出现了另一种画面:GPT-5 曾在 prompt priming 后,用大约 11 分钟复现其训练截止后发表论文中的核心结果;另一个说法里,GPT-5 约 30 分钟复现了他一篇重要论文。

这不是普通用户能在周报里感到的升级。它更像一条裂缝:日常任务已经被模型能力淹过,边际提升不刺眼;前沿科学的某些难题,还在锯齿状边界上,一点推进都很硬。

Alex Lupsasca 也不是站台型人物。他是理论物理学家,获得过 2024 New Horizons in Fundamental Physics Breakthrough Prize,后来加入 OpenAI for Science。最近他和 OpenAI Science 团队讲的故事,焦点不在“AI 会不会写论文”,而在模型是否已经进入理论探索的关键环节。

这次到底做到了哪一步

这件事可以压成一张卡片。

维度已知事实该怎么读
Alex Lupsasca,2024 New Horizons in Fundamental Physics Breakthrough Prize 得主,后加入 OpenAI for Science这是领域专家压测,不是外行拿模型玩公式
模型GPT-5、GPT-5.2/ChatGPT能力主要显在高难推导,不显在普通办公体感
旧结果复现GPT-5 在 prompt priming 后,约 11 分钟复现训练截止后论文核心结果;另有约 30 分钟复现重要论文的说法训练截止很关键,但这仍不等于独立发现
胶子问题GPT-5.2/ChatGPT 参与 single-minus gluon tree amplitudes 问题,找到 half-collinear regime,并给出作者此前未知的证明技巧模型提供了可验证的新路径,不只是把旧材料说顺
引力子推广团队把方向从胶子推到引力子,模型生成约 110 页计算与新技术;研究者花约三周验证,形成量子引力相关预印本这是预印本和团队验证,不是物理学界最终盖章的新定律

限制也要放在桌面上。

那次 11 分钟复现,不是模型空手从宇宙里抓答案。前面有 prompt priming:先让模型做相关教科书热身题,把思路拨到正确频道。

这不丢人。科研本来就靠问题设置。但它说明,人类仍在给方向、语境和判断标准。

胶子结果也不能读歪。原文涉及特定设置,并不是说 3+1 维现实物理中的结论被推翻。更谨慎的说法是:在特定 2+2 维设置下,某些原本预期为零的量可能出现非零。

110 页计算同样不能单独算成果。没有验证,它只是文本洪水;研究者花约三周逐步核查后,才可能变成研究材料。

这才是这条新闻的硬处:模型给出东西,人类能查;模型开出路径,专家能判断它是不是路。

普通用户和前沿专家,已经不在同一把尺子上

我更在意的不是“GPT-5.2 是否已经会当物理学家”。这个说法太松。

真正反常的是:模型能力的体感,正在按人群分裂。

普通用户看模型,常用三件事衡量:写邮件、总结文档、改几段代码。问题是,GPT-3 时代写邮件就已经够用。80 分到 90 分,没法像 0 分到 60 分那样让人兴奋。

前沿科学不是这样。

那里卡住的不是语气更自然一点,而是推导、变形、极限情形、证明技巧、错误排查。模型如果能把一个方向从几个月压到几天,性质就变了。它不是体验优化,是研究节奏被改写。

这就是 jagged frontier:边界不是一条平滑线,而是锯齿。有些地方模型像补丁,有些地方像换机器。

早期电力进工厂时,也有类似错位。很多工厂只是把蒸汽机换成电动机,布局不变,效率有限。真正的变化发生在生产线被重新设计之后。

今天的 AI 科研不完全一样,但结构相近:工具先塞进旧流程,再逼流程变形。瓶颈一变,赢家也会变。

对关注 AI 前沿能力的科技读者,这意味着一件事:不要再只用办公场景判断模型代际。邮件写得差不多,不代表模型在专家任务上没有推进。

对开发者和研究团队,动作更具体:如果你在做科研自动化、代码辅助、数学推理或专业工具链,别急着因为普通体验平淡就延后评估。应该把测试集换成自己的硬问题,看模型能否减少推导、检索、排错和验证成本。

但也别盲目迁移。没有专家复核能力的团队,买到的可能不是加速器,而是更快的幻觉生成器。

分水岭不在自动生成论文

听到“AI 生成 110 页物理计算”,很多人会走两个极端。

一边说 AGI 到了。一边说不过是拼接和幻觉。

我不太买这两个判断。更准确的变化是:理论探索的瓶颈,正在从“能不能推得动”,转到“问什么、信什么、怎么验”。

过去,研究者要把大量时间耗在艰苦推导上。现在,如果模型能快速展开多个方向,人的价值会更集中到品味和裁判能力上。

哪个问题值得问。哪个中间结果像真的。哪个证明路径值得追。哪个结论只是形式漂亮。

这听起来像人类被抬高了,其实也更残酷。模型把体力活变便宜后,差距会转向审美、判断和组织能力。不是每个研究者都有好问题,也不是每个团队都有三周验证 110 页计算的耐心和能力。

“天下熙熙,皆为利来。”放在科研 AI 上也成立,只是这里的“利”不是广告点击,而是更快的发现、更密的署名、更强的机构吸引力。OpenAI 要证明自己不只是聊天机器人公司,理论物理这种高门槛场景,是一块很硬的招牌。

但这块招牌不能被神化。

GPT-5.x 不是独立科学家。人类提出问题、选择类比、设计提示、筛选输出、逐行验证,仍是主轴。模型更像一个强悍、偶尔给出陌生技巧的推导合作者。它还没有承担科学共同体里的责任。

接下来判断 AI 科研进展,别看热闹指标。看四件事就够:

观察点为什么重要
训练截止排除模型只是记住已有结果的可能
prompt priming判断人类给了多少方向和脚手架
专家验证链条区分研究材料和文本幻觉
问题难度与相邻性判断模型是在硬推新路,还是在既有理论附近补缝

能过这几关,才说明模型真的碰到了科学边界。过不了,就还是漂亮演示。

所以这件事的意义,不是“AI 写了一篇物理论文”。

它说明前沿专家已经开始把模型当作探索空间的放大器,而不是文档助手。普通人看不见这层变化,是因为普通任务早被模型能力覆盖;真正难传播的浪头,反而在更窄、更硬的地方抬起来。