GPT-5 被不少人嫌弃过:写邮件没惊艳到哪儿,整理文档也只是更顺一点。
但同一条模型线,在理论物理学家 Alex Lupsasca 手里,出现了另一种画面:GPT-5 曾在 prompt priming 后,用大约 11 分钟复现其训练截止后发表论文中的核心结果;另一个说法里,GPT-5 约 30 分钟复现了他一篇重要论文。
这不是普通用户能在周报里感到的升级。它更像一条裂缝:日常任务已经被模型能力淹过,边际提升不刺眼;前沿科学的某些难题,还在锯齿状边界上,一点推进都很硬。
Alex Lupsasca 也不是站台型人物。他是理论物理学家,获得过 2024 New Horizons in Fundamental Physics Breakthrough Prize,后来加入 OpenAI for Science。最近他和 OpenAI Science 团队讲的故事,焦点不在“AI 会不会写论文”,而在模型是否已经进入理论探索的关键环节。
这次到底做到了哪一步
这件事可以压成一张卡片。
| 维度 | 已知事实 | 该怎么读 |
|---|---|---|
| 人 | Alex Lupsasca,2024 New Horizons in Fundamental Physics Breakthrough Prize 得主,后加入 OpenAI for Science | 这是领域专家压测,不是外行拿模型玩公式 |
| 模型 | GPT-5、GPT-5.2/ChatGPT | 能力主要显在高难推导,不显在普通办公体感 |
| 旧结果复现 | GPT-5 在 prompt priming 后,约 11 分钟复现训练截止后论文核心结果;另有约 30 分钟复现重要论文的说法 | 训练截止很关键,但这仍不等于独立发现 |
| 胶子问题 | GPT-5.2/ChatGPT 参与 single-minus gluon tree amplitudes 问题,找到 half-collinear regime,并给出作者此前未知的证明技巧 | 模型提供了可验证的新路径,不只是把旧材料说顺 |
| 引力子推广 | 团队把方向从胶子推到引力子,模型生成约 110 页计算与新技术;研究者花约三周验证,形成量子引力相关预印本 | 这是预印本和团队验证,不是物理学界最终盖章的新定律 |
限制也要放在桌面上。
那次 11 分钟复现,不是模型空手从宇宙里抓答案。前面有 prompt priming:先让模型做相关教科书热身题,把思路拨到正确频道。
这不丢人。科研本来就靠问题设置。但它说明,人类仍在给方向、语境和判断标准。
胶子结果也不能读歪。原文涉及特定设置,并不是说 3+1 维现实物理中的结论被推翻。更谨慎的说法是:在特定 2+2 维设置下,某些原本预期为零的量可能出现非零。
110 页计算同样不能单独算成果。没有验证,它只是文本洪水;研究者花约三周逐步核查后,才可能变成研究材料。
这才是这条新闻的硬处:模型给出东西,人类能查;模型开出路径,专家能判断它是不是路。
普通用户和前沿专家,已经不在同一把尺子上
我更在意的不是“GPT-5.2 是否已经会当物理学家”。这个说法太松。
真正反常的是:模型能力的体感,正在按人群分裂。
普通用户看模型,常用三件事衡量:写邮件、总结文档、改几段代码。问题是,GPT-3 时代写邮件就已经够用。80 分到 90 分,没法像 0 分到 60 分那样让人兴奋。
前沿科学不是这样。
那里卡住的不是语气更自然一点,而是推导、变形、极限情形、证明技巧、错误排查。模型如果能把一个方向从几个月压到几天,性质就变了。它不是体验优化,是研究节奏被改写。
这就是 jagged frontier:边界不是一条平滑线,而是锯齿。有些地方模型像补丁,有些地方像换机器。
早期电力进工厂时,也有类似错位。很多工厂只是把蒸汽机换成电动机,布局不变,效率有限。真正的变化发生在生产线被重新设计之后。
今天的 AI 科研不完全一样,但结构相近:工具先塞进旧流程,再逼流程变形。瓶颈一变,赢家也会变。
对关注 AI 前沿能力的科技读者,这意味着一件事:不要再只用办公场景判断模型代际。邮件写得差不多,不代表模型在专家任务上没有推进。
对开发者和研究团队,动作更具体:如果你在做科研自动化、代码辅助、数学推理或专业工具链,别急着因为普通体验平淡就延后评估。应该把测试集换成自己的硬问题,看模型能否减少推导、检索、排错和验证成本。
但也别盲目迁移。没有专家复核能力的团队,买到的可能不是加速器,而是更快的幻觉生成器。
分水岭不在自动生成论文
听到“AI 生成 110 页物理计算”,很多人会走两个极端。
一边说 AGI 到了。一边说不过是拼接和幻觉。
我不太买这两个判断。更准确的变化是:理论探索的瓶颈,正在从“能不能推得动”,转到“问什么、信什么、怎么验”。
过去,研究者要把大量时间耗在艰苦推导上。现在,如果模型能快速展开多个方向,人的价值会更集中到品味和裁判能力上。
哪个问题值得问。哪个中间结果像真的。哪个证明路径值得追。哪个结论只是形式漂亮。
这听起来像人类被抬高了,其实也更残酷。模型把体力活变便宜后,差距会转向审美、判断和组织能力。不是每个研究者都有好问题,也不是每个团队都有三周验证 110 页计算的耐心和能力。
“天下熙熙,皆为利来。”放在科研 AI 上也成立,只是这里的“利”不是广告点击,而是更快的发现、更密的署名、更强的机构吸引力。OpenAI 要证明自己不只是聊天机器人公司,理论物理这种高门槛场景,是一块很硬的招牌。
但这块招牌不能被神化。
GPT-5.x 不是独立科学家。人类提出问题、选择类比、设计提示、筛选输出、逐行验证,仍是主轴。模型更像一个强悍、偶尔给出陌生技巧的推导合作者。它还没有承担科学共同体里的责任。
接下来判断 AI 科研进展,别看热闹指标。看四件事就够:
| 观察点 | 为什么重要 |
|---|---|
| 训练截止 | 排除模型只是记住已有结果的可能 |
| prompt priming | 判断人类给了多少方向和脚手架 |
| 专家验证链条 | 区分研究材料和文本幻觉 |
| 问题难度与相邻性 | 判断模型是在硬推新路,还是在既有理论附近补缝 |
能过这几关,才说明模型真的碰到了科学边界。过不了,就还是漂亮演示。
所以这件事的意义,不是“AI 写了一篇物理论文”。
它说明前沿专家已经开始把模型当作探索空间的放大器,而不是文档助手。普通人看不见这层变化,是因为普通任务早被模型能力覆盖;真正难传播的浪头,反而在更窄、更硬的地方抬起来。
