GPT-5.x 参与理论物理预印本：普通人嫌它平淡，专家看到边界外移

核心摘要 Summary

Alex Lupsasca 与 OpenAI Science 团队称，GPT-5.x/ChatGPT 已在胶子、引力子相关理论物理问题中参与推出预印本结果。
重点不是 AI 独立发现了新定律，而是前沿科学里的模型能力标尺，已经和普通办公体验明显分叉。
对开发者和研究团队来说，接下来该看的不是演示页数，而是训练截止、提示设置、专家验证链条和问题本身的难度。

GPT-5 被不少人嫌弃过：写邮件没惊艳到哪儿，整理文档也只是更顺一点。

但同一条模型线，在理论物理学家 Alex Lupsasca 手里，出现了另一种画面：GPT-5 曾在 prompt priming 后，用大约 11 分钟复现其训练截止后发表论文中的核心结果；另一个说法里，GPT-5 约 30 分钟复现了他一篇重要论文。

这不是普通用户能在周报里感到的升级。它更像一条裂缝：日常任务已经被模型能力淹过，边际提升不刺眼；前沿科学的某些难题，还在锯齿状边界上，一点推进都很硬。

Alex Lupsasca 也不是站台型人物。他是理论物理学家，获得过 2024 New Horizons in Fundamental Physics Breakthrough Prize，后来加入 OpenAI for Science。最近他和 OpenAI Science 团队讲的故事，焦点不在“AI 会不会写论文”，而在模型是否已经进入理论探索的关键环节。

这次到底做到了哪一步

这件事可以压成一张卡片。

维度	已知事实	该怎么读
人	Alex Lupsasca，2024 New Horizons in Fundamental Physics Breakthrough Prize 得主，后加入 OpenAI for Science	这是领域专家压测，不是外行拿模型玩公式
模型	GPT-5、GPT-5.2/ChatGPT	能力主要显在高难推导，不显在普通办公体感
旧结果复现	GPT-5 在 prompt priming 后，约 11 分钟复现训练截止后论文核心结果；另有约 30 分钟复现重要论文的说法	训练截止很关键，但这仍不等于独立发现
胶子问题	GPT-5.2/ChatGPT 参与 single-minus gluon tree amplitudes 问题，找到 half-collinear regime，并给出作者此前未知的证明技巧	模型提供了可验证的新路径，不只是把旧材料说顺
引力子推广	团队把方向从胶子推到引力子，模型生成约 110 页计算与新技术；研究者花约三周验证，形成量子引力相关预印本	这是预印本和团队验证，不是物理学界最终盖章的新定律

限制也要放在桌面上。

那次 11 分钟复现，不是模型空手从宇宙里抓答案。前面有 prompt priming：先让模型做相关教科书热身题，把思路拨到正确频道。

这不丢人。科研本来就靠问题设置。但它说明，人类仍在给方向、语境和判断标准。

胶子结果也不能读歪。原文涉及特定设置，并不是说 3+1 维现实物理中的结论被推翻。更谨慎的说法是：在特定 2+2 维设置下，某些原本预期为零的量可能出现非零。

110 页计算同样不能单独算成果。没有验证，它只是文本洪水；研究者花约三周逐步核查后，才可能变成研究材料。

这才是这条新闻的硬处：模型给出东西，人类能查；模型开出路径，专家能判断它是不是路。

普通用户和前沿专家，已经不在同一把尺子上

我更在意的不是“GPT-5.2 是否已经会当物理学家”。这个说法太松。

真正反常的是：模型能力的体感，正在按人群分裂。

普通用户看模型，常用三件事衡量：写邮件、总结文档、改几段代码。问题是，GPT-3 时代写邮件就已经够用。80 分到 90 分，没法像 0 分到 60 分那样让人兴奋。

前沿科学不是这样。

那里卡住的不是语气更自然一点，而是推导、变形、极限情形、证明技巧、错误排查。模型如果能把一个方向从几个月压到几天，性质就变了。它不是体验优化，是研究节奏被改写。

这就是 jagged frontier：边界不是一条平滑线，而是锯齿。有些地方模型像补丁，有些地方像换机器。

早期电力进工厂时，也有类似错位。很多工厂只是把蒸汽机换成电动机，布局不变，效率有限。真正的变化发生在生产线被重新设计之后。

今天的 AI 科研不完全一样，但结构相近：工具先塞进旧流程，再逼流程变形。瓶颈一变，赢家也会变。

对关注 AI 前沿能力的科技读者，这意味着一件事：不要再只用办公场景判断模型代际。邮件写得差不多，不代表模型在专家任务上没有推进。

对开发者和研究团队，动作更具体：如果你在做科研自动化、代码辅助、数学推理或专业工具链，别急着因为普通体验平淡就延后评估。应该把测试集换成自己的硬问题，看模型能否减少推导、检索、排错和验证成本。

但也别盲目迁移。没有专家复核能力的团队，买到的可能不是加速器，而是更快的幻觉生成器。

分水岭不在自动生成论文

听到“AI 生成 110 页物理计算”，很多人会走两个极端。

一边说 AGI 到了。一边说不过是拼接和幻觉。

我不太买这两个判断。更准确的变化是：理论探索的瓶颈，正在从“能不能推得动”，转到“问什么、信什么、怎么验”。

过去，研究者要把大量时间耗在艰苦推导上。现在，如果模型能快速展开多个方向，人的价值会更集中到品味和裁判能力上。

哪个问题值得问。哪个中间结果像真的。哪个证明路径值得追。哪个结论只是形式漂亮。

这听起来像人类被抬高了，其实也更残酷。模型把体力活变便宜后，差距会转向审美、判断和组织能力。不是每个研究者都有好问题，也不是每个团队都有三周验证 110 页计算的耐心和能力。

“天下熙熙，皆为利来。”放在科研 AI 上也成立，只是这里的“利”不是广告点击，而是更快的发现、更密的署名、更强的机构吸引力。OpenAI 要证明自己不只是聊天机器人公司，理论物理这种高门槛场景，是一块很硬的招牌。

但这块招牌不能被神化。

GPT-5.x 不是独立科学家。人类提出问题、选择类比、设计提示、筛选输出、逐行验证，仍是主轴。模型更像一个强悍、偶尔给出陌生技巧的推导合作者。它还没有承担科学共同体里的责任。

接下来判断 AI 科研进展，别看热闹指标。看四件事就够：

观察点	为什么重要
训练截止	排除模型只是记住已有结果的可能
prompt priming	判断人类给了多少方向和脚手架
专家验证链条	区分研究材料和文本幻觉
问题难度与相邻性	判断模型是在硬推新路，还是在既有理论附近补缝

能过这几关，才说明模型真的碰到了科学边界。过不了，就还是漂亮演示。

所以这件事的意义，不是“AI 写了一篇物理论文”。

它说明前沿专家已经开始把模型当作探索空间的放大器，而不是文档助手。普通人看不见这层变化，是因为普通任务早被模型能力覆盖；真正难传播的浪头，反而在更窄、更硬的地方抬起来。

GPT-5.x 参与理论物理预印本：普通人嫌它平淡，专家看到边界外移

科研边界

物理压测

旧果复现

新路生成

体感分裂

日常淹没

专家放大

人类主轴

提示脚手架

验证门槛

评估变量

训练截止

问题难度

这次到底做到了哪一步

普通用户和前沿专家，已经不在同一把尺子上

分水岭不在自动生成论文