Codex 进了黑洞模拟，但关键不是 AI 会算黑洞

核心摘要 Summary

亚利桑那大学和 Steward Observatory 研究者 Chi-kwan Chan 正在用 OpenAI Codex 辅助推导、实现和测试黑洞附近等离子体的数值算法。
重点不是 AI 已经解决黑洞模拟，而是它能把候选算法更快送进可读、可测、可复现的流程。
对 AI 科研应用读者，判断标准应从演示效果转向验证链；对高性能计算读者，变量在于算法能否减少无效的小时间步开销。

黑洞照片已经有了，视频难得多。

2019 年，事件视界望远镜合作组织 EHT 发布首张黑洞图像。现在，EHT 正在推进超大质量黑洞的视频观测，重点对象包括 M87 星系中心黑洞。要解释画面里的亮环怎么随时间变化，科学家得模拟事件视界附近的发光等离子体。

亚利桑那大学和 Steward Observatory 研究者 Chi-kwan Chan 是 EHT 合作成员。他正在把 OpenAI Codex 用到这件事里：辅助推导和测试黑洞等离子体模拟算法。

我更在意的是，这不是一个“AI 会算黑洞了”的故事。它更像科研编程里一件很朴素的事：让机器多提出一些候选方案，再把它们放进检验流程里，一轮一轮筛掉。

黑洞模拟卡在事件视界外的等离子体

EHT 观测的不是黑洞内部，也不是事件视界之内的东西。光从那里出不来。

图像里的亮环，来自事件视界附近高速运动、被加热的等离子体。科学家要理解的是这些发光物质如何流动、如何受磁场影响、如何随时间改变。

麻烦在这里。

在普通流体问题里，粒子碰撞频繁，很多细节可以平均掉。但在超大质量黑洞附近，一些区域又热又稀薄，粒子之间很少碰撞。电子和离子更多是沿着磁场线螺旋运动。

传统粒子模拟要跟踪这些螺旋。时间步就得切得非常小。超算花了大量力气追局部小运动，大尺度演化反而推进得慢。

这不是简单多买几块 GPU 就能绕开的事。瓶颈在物理模型，也在数值方法。

模拟路线	能解决什么	主要限制	对 Chan 这类工作意味着什么
流体近似	适合碰撞较频繁的等离子体	会抹掉部分少碰撞物理	不能覆盖所有稀薄区域
传统粒子模拟	能描述粒子沿磁场螺旋运动	时间步很小，计算代价高	大量算力耗在局部小运动上
Codex 辅助算法探索	生成、实现候选数值方案	很多方案会失败	价值在于更快进入测试和筛选

这也是这条消息容易被误读的地方。Codex 没有“看见”黑洞，也没有直接替科学家完成模拟。它参与的是更前面的环节：帮研究者探索有没有更好的算法写法。

Chan 关注的方向，是从数学和数值方法上改变粒子运动的跟踪方式。目标是让计算机不必逐圈计算每一个细小螺旋。

手工探索这些方案很慢。研究者要推导公式、写代码、做小规模测试，再和已知解对照。Codex 在这里承担的是“多给候选项”的角色：提出可能的数值方案，生成实现代码，再交给人和测试来判断。

这个边界很重要。

大型语言模型会写出看似顺眼、实际不稳定的算法。它也可能在推导里漏掉条件，或者在代码里藏下数值误差。科研里不能因为一段代码来自 AI，就默认它有价值。

Chan 这类用法比较清醒：许多 AI 生成方案会失败。科学采纳的依据不是来源，而是验证。

一个算法来自资深科学家、学生，还是 Codex，本身不决定它能不能用。能不能和已知解析解对齐，能不能通过基准测试，能不能在复杂场景里保持稳定，这些才算数。

这和很多 AI 演示的气质不同。演示可以看起来很快，科研代码要经得起复跑。差之毫厘，谬以千里，在数值模拟里不是修辞，是日常风险。

对关注 AI 科研应用的技术读者，这个案例给出的动作很具体：不要只问 Codex 能不能生成漂亮代码，要问团队有没有验证链。

更现实的做法，是把 AI 生成代码放在原型层和实验分支里。进入核心科研流程前，至少要过版本管理、单元测试、基准测试、同行复核和物理一致性检查。没有这些，采购或推广 AI 编程工具都应该慢一点。

对天体物理和高性能计算读者，重点也不是“要不要换工具”。重点是这类候选算法能不能减少传统模拟里被小时间步吞掉的算力。

超算团队不该因为一个案例就迁移核心代码。更稳的动作，是把 Codex 用在小规模算法探索和测试脚本生成上。等候选方案能和成熟模拟结果对齐，再谈更大规模运行。

后面最该盯住四件事：

目前能确认的是使用路径，不是成果上限。没有公开证据时，不该写成 Codex 已经解决黑洞等离子体模拟，也不该写成它能模拟多少粒子、提速多少倍。

黑洞视频的难题，最后仍要回到物理和计算。Codex 的位置不是神来之笔，而是一台更快的候选方案生成器。它把更多想法推到门口，能不能进门，还得靠检验。