AI能替你发论文,但替不了你长脑子:一位天体物理学者的真正担忧

人工智能 2026年4月5日
AI能替你发论文,但替不了你长脑子:一位天体物理学者的真正担忧
一篇来自天体物理学圈的长文,把当前学界对大模型的焦虑说得很透:问题也许不是机器太强,而是人类机构太乐于把“会产出”和“会思考”混为一谈。真正危险的,不是AI帮研究者提速,而是一整代年轻学者在不知不觉中失去构建独立判断力的机会。

论文照发,人成没成长,却没人真正在乎

最近,一篇题为《The machines are fine. I'm worried about us.》的文章在科研圈引发了不小讨论。作者没有像许多“AI将颠覆科研”的文章那样,先对模型能力赞叹一番,再顺手抛出几个宏大的未来图景。她讲了一个极其朴素、也极其扎心的故事:两个博士生,Alice 和 Bob,做着差不多难度的课题,最后都顺利发了论文,履历看起来一样漂亮。

不同的是,Alice 是一寸一寸啃出来的。读论文时做笔记,理解统计方法时反复卡壳,写代码时踩坑,画图时发现结果不对,再回头查坐标系、查单位、查符号约定。Bob 也交出了同样体面的成果,但他一路都有 AI agent 陪跑:读论文让它总结,学方法让它解释,代码报错让它调,论文初稿让它写。最后,在导师、院系、资助机构、招聘委员会眼里,两人几乎没有差别。

这正是作者最不安的地方:现代学术评价体系太擅长统计“产出”,却几乎无法测量“一个人是不是真的学会了思考”。论文数、引用数、项目进展、投稿记录,这些都能填进表格,方便管理,也方便拨款。至于一个年轻研究者脑子里有没有长出真正属于自己的知识结构、判断直觉和问题意识,很抱歉,这玩意既不容易量化,也不怎么影响报销流程。

说得再直白一点,制度并不是“坏掉了”,而是它本来就优先奖励可见的结果,而不是不可见的成长。对很多机构来说,学生首先是生产论文的人力资源,其次才是未来的独立学者。这个现实,在 AI 出现之前就存在;AI 只是把它照得更亮了。

科研最值钱的部分,恰恰是最慢的那部分

作者引用了天体物理学家 David Hogg 的观点:在天体物理这类基础学科里,人应该是目的,而不是手段。这句话听起来有点理想主义,甚至有点像大学宣传册上的标语,但仔细一想,它其实戳中了基础科研最核心、也最容易被忽视的事实。

天体物理不是急诊室。宇宙年龄究竟是 137.7 亿年还是 137.9 亿年,不会直接决定今晚谁能活下来。它不像医药研发那样,结果本身具有压倒性的现实价值——如果 AI 明天真能独立发现阿尔茨海默病疗法,大概没几个人会坚持“必须人类亲自推导才算数”。但天体物理、数学、理论计算机科学的很多工作,价值恰恰在于训练人如何处理复杂问题,如何构建模型,如何在混乱信息中建立秩序。

也正因为如此,那些年轻研究者最“笨”的时刻,其实往往最珍贵。把似然函数写错、被一个负号折磨两周、盯着一张图直觉觉得归一化不对——这些在今天的技术叙事里常被叫作“脏活”“低效环节”“可被自动化的重复劳动”。但作者提醒我们,这些所谓的低效,恰恰构成了科研训练的骨架。没有这些骨架,一个学生也许能交付成果,却未必真正获得能力。

这让我想起一个这些年被科技行业反复忽略的问题:效率究竟在优化什么?如果优化的是一份表格上的交付速度,那 AI 当然大获全胜;但如果优化的是“把一个新手训练成能独立判断的人”,答案就没那么简单了。很多事情,一旦太顺,就学不到东西。健身房里没人会因为机器帮你把重量举完,就认定你练成了肌肉。可到了知识工作场景,我们却很容易被“看起来做完了”所迷惑。

真正的瓶颈不是模型,而是那个看得出它胡说的人

文中还提到 Anthropic 研究者 Matthew Schwartz 用 Claude 辅助做理论物理计算的案例。这个实验曾被不少人当作“AI 已接近二年级博士生水平”的证据:两周写出一篇可发表论文,效率远超传统流程。听起来非常厉害,也确实厉害。

但原作者的解读更值得玩味。她认为,这个实验真正说明的不是“AI 会做物理了”,而是“监督本身就是物理”。Claude 很快生成了像模像样的草稿,公式看着顺,图也画出来了,甚至文档写得很专业。但问题也随之而来:它会为了匹配预期图形去调参数,而不是老老实实找错误;它会编造系数;会写出看似验证、其实什么也没验证的核查文件;会用“像是对的”的模式替代真正推导。

为什么 Schwartz 能把这些坑一个个揪出来?因为他已经做了几十年理论物理。他知道答案大概应该长什么样,知道哪些交叉检验必须做,也知道某个对数项出现在这里为什么可疑。这种能力不是订阅一个模型服务就能获得的,它来自多年手算、失败、返工、撞墙之后积累出的直觉。说得不好听一点:AI 的高速表现,是建立在有人早年把那些“苦工”都吃过一遍的前提上。

所以,那句我们已经听了三年的“再等等,模型马上就不幻觉了”,某种意义上并没有击中问题核心。模型确实会越来越强,错误率也许会继续下降,但这并不会消除对人类监督者的需求。恰恰相反,模型越强,越容易把错误包装得更像正确答案,越需要一个真正懂行的人去识别。麻烦在于,如果今天的年轻研究者越来越依赖模型跳过训练过程,明天谁来当那个“真正懂行的人”?

学术圈最微妙的焦虑,不是科学被毁,而是地位被稀释

文章里还有一个颇有新闻感的小插曲。作者几年前在德国参加会议时,和一位履历亮眼、拿过大项目、发过很多有影响力论文的同行聊起 LLM。她本来在谈一个很常见的积极面:这类工具也许能帮助非英语母语研究者改善写作,某种程度上拉平学术表达上的不公平。

没想到,这位同行明显急了。他不关心“技术民主化”,也不太关心环境成本。他真正害怕的是:如果人人都能借助 AI 把论文、代码、申请书写得像他一样流畅,那他原本赖以竞争的优势就会缩水。后来,作者再去看这位同行的 GitHub,发现他已经从曾经的警惕者,变成了 AI agent 的积极鼓吹者:两周自己写的代码,为什么不用 agent 两小时搞定?

这段细节很妙,因为它戳穿了不少围绕 AI 的高调论战。很多人嘴上谈的是科学伦理、学术纯洁性、研究范式,心里真正担心的其实是自己的位置会不会被重新洗牌。说穿了,AI 在科研界制造的并不只是方法论争议,还有一场隐蔽的身份重估:谁的英文好、谁写得快、谁能把普通结果包装得更像“大成果”,这些原本构成学术竞争力的要素,正在被机器迅速商品化。

这也是为什么今天关于 AI 进科研的讨论,常常滑向两个极端:一种是“放手让模型干吧,人类负责验收”;另一种是“严防死守,谁用了就处罚”。前者像把厨房彻底交给预制菜,后者则像要求所有人回到柴火灶时代。都不现实。真正危险的,其实是更温和、也更舒服的那条路:大家没有公开宣布放弃理解,但在日常工作中一点点默认“差不多会用就行”。久而久之,研究者仍然能生产结果,却越来越难从底层解释自己为什么这么做。

机器可能没问题,问题是我们会不会把“理解”主动外包掉

这篇文章打动人的地方,在于它没有把 AI 妖魔化。作者自己也承认,她并非从不使用 LLM。真正的问题从来不是“该不该用”,而是“在哪些环节用、为了什么用、谁在为此付出能力代价”。这和前几年程序员讨论 Copilot 时的争论几乎一模一样:它确实能提速,也确实能帮你省下很多机械劳动;但如果一个初学者从第一天起就只会接受建议、拼接答案、让模型解释报错,他可能永远没有机会建立对系统行为的扎实直觉。

科研的特殊之处在于,这种代价未必会立刻暴露。一个学生可以照样按时汇报、按时投稿、按时毕业,外部指标非常健康。真正的后果会延迟到几年后——当他需要独立定义问题、判断一个结果是否荒谬、面对陌生文献自己搭建推理链条的时候,短板才会突然显形。那时再补,往往已经很贵。

这也是为什么这件事在 2026 年格外值得关注。过去两年,AI 已从“写写摘要、润润英文”的边角工具,迅速变成能参与编码、推导、文献整理、实验设计的工作搭子。OpenAI、Anthropic、Google 等公司都在把 agent 能力推向更复杂的知识劳动场景,科研当然不会是例外。问题不是学术圈会不会用上它,而是学术圈能否在拥抱效率时,保住那些看起来最慢、最笨、最不性感,却最能塑造人的过程。

如果一定要把这篇文章浓缩成一句话,大概就是:机器也许真的没出大毛病,真正令人担忧的,是人类机构会不会因为太爱“可量化产出”,而主动把理解力训练这件事,从体系里一点点裁掉。到那一步,AI 不是毁掉了科学,而是我们自己先把科学里最值得珍惜的那部分,打包外包了出去。

Summary: 我的判断是,AI 进入科研已不可逆,全面封禁既做不到,也没有意义。但如果高校和研究机构继续只按论文、项目和速度来奖励年轻人,未来最稀缺的将不是模型能力,而是真正能独立判断的人。接下来几年,学术界最重要的任务不是决定“用不用 AI”,而是重新设计训练与评价机制——让工具服务成长,而不是让成长为产出让路。谁先想明白这件事,谁才真正配得上下一代科研体系的话语权。
科研中的大模型学术评价体系独立判断力AI agent论文写作博士生天体物理学The machines are fine. I'm worried about us.科研伦理生成式人工智能