一条 19 世纪的方程，正在悄悄改写强化学习和扩散模型

核心摘要 Summary

一篇关于 Hamilton-Jacobi-Bellman 方程的技术长文，讲清了连续时间强化学习为何不是“小众数学分支”，而是连接控制理论、生成模型与最优传输的一条主线。
我更愿意把它看作一次提醒：今天最火的 AI 方法，背后很多关键骨架，其实来自一百多年前的物理学和上世纪的最优控制。

从 Bellman 到扩散模型：AI 没那么“新”了

机器学习行业很喜欢讲“新范式”。今天是大模型，昨天是扩散模型，前天是强化学习，仿佛每一波浪潮都要把前一代方法冲进历史垃圾桶。但 Daniel López Montero 这篇文章做了一件很有意思的事：它把大家眼里相当不同的几块内容——连续时间强化学习、随机控制、扩散模型——拽到同一张数学地图上，地图中央写着一行名字不太友好的字：Hamilton-Jacobi-Bellman，简称 HJB。

说白了，这个方程是 Bellman 动态规划在连续时间里的版本。离散时间里，我们熟悉的 Bellman 方程说的是：眼下这一步怎么选，取决于“即时收益 + 未来价值”。把时间切得越来越细，直到步长趋近于 0，这个递推关系就不再是代数式，而变成了偏微分方程。这个变化听起来像纯数学家的游戏，但恰恰在这里，强化学习开始和物理学、控制论、甚至图像生成模型产生了血缘关系。

更迷人的地方在于，Bellman 在 20 世纪 50 年代意识到，这个连续时间最优控制方程，和 19 世纪经典力学里的 Hamilton-Jacobi 方程本质同构。也就是说，AI 里一些看起来很“赛博”的算法骨架，实际上和研究行星运动、最小作用量的老派物理问题是同一门语言。这种历史回声，多少让人有点感慨：技术行业天天喊颠覆，最后往往还是在给老数学续命。

为什么连续时间突然重要了

过去很多强化学习教材都从离散时间的马尔可夫决策过程讲起：状态、动作、奖励、折扣因子，一步一步往前推。这套框架非常成功，像 DQN、PPO、SAC 这些熟悉的算法，都是在这条路上长出来的。但现实世界并不总按“每秒一帧”来运转。

自动驾驶中的方向盘调整、机器人机械臂的平滑控制、量化交易里的连续决策，乃至化学反应过程控制，本质上都更接近连续时间系统。你当然可以强行离散化，把一切塞进时间格子里，可一旦时间步长选得太粗，策略会显得笨拙；选得太细，计算和样本成本又会迅速飙升。连续时间控制的吸引力就在这里：它不是把世界切碎后再拟合，而是直接承认世界本来就是流动的。

这篇文章的价值，不只是在推导 HJB 方程，更在于它把“连续时间 RL 为何值得认真对待”讲明白了。对很多工程师来说，连续时间常被误以为是学术上的高配版本，优雅但不实用。可随着机器人、具身智能、工业控制重新升温，这个判断正在过时。尤其当 AI 系统开始从屏幕走向物理世界，离散时间的简化模型迟早会碰壁。

作者进一步把系统扩展到带噪声的 Itô 随机微分方程，这一步非常关键。现实世界没有完美静止的环境，传感器有误差，执行器有扰动，市场有波动，图像生成过程本身也是噪声驱动的。加入随机项后，HJB 方程里多出了一个由二阶导数控制的“扩散项”。从直觉上说，这代表系统不仅要考虑“往哪儿走”，还得考虑“会怎么散开”。这也是它能和扩散模型接轨的原因之一。

一条方程，怎样把强化学习和生成模型拴在一起

这篇文章最耐人寻味的地方，是它不满足于把 HJB 当成控制理论教科书里的古董，而是试图说明：扩散模型的训练，也可以被看成一种随机最优控制问题。这种看法过去几年其实越来越流行，特别是在 score-based generative modeling、Schrödinger bridge、optimal transport 这些方向里，研究者已经开始频繁借用控制论语言来解释生成过程。

如果用更接地气的话说，扩散模型做的事，是把一团噪声一步步“导回”数据分布；而最优控制做的事，是给一个动态系统找出最省代价、最优收益的轨迹。两者看似一个在“造图”，一个在“控系统”，但内核都和“如何在噪声里走出一条最优路径”有关。HJB 提供的正是这套局部最优到全局最优的桥梁。

这件事为什么重要？因为它让生成模型不再只是一个堆算力、堆数据、堆参数的黑盒。若把扩散模型理解为受控随机过程，那么训练目标、采样轨迹、代价函数甚至约束条件，都有机会获得更清晰的理论解释。行业里一直有个隐性矛盾：生成模型非常能打，但解释性和可控性一直落后。控制理论，可能正是填这个坑的一把铲子。

当然，我也不想把这个方向吹得过头。把生成模型写成控制问题，不等于明天就能让文生图系统更便宜、更快、更稳定。很多时候，这类统一视角先带来的是理解上的通透，而不是立刻可部署的产品优势。学术界很擅长画“统一大图景”，产业界更关心的是推理成本、训练吞吐和商业落地。二者之间，依然隔着工程化这条很深的河。

神经网络开始解 PDE：听起来冷门，其实很现实

文章后半部分给出了一个很实用的思路：既然 HJB 是个偏微分方程，那能不能直接用神经网络去逼近它的解？作者给出的答案是肯定的，而且方法并不玄学——用一个网络表示价值函数，用另一个网络表示策略，然后做连续时间版本的 policy iteration，也就是“策略评估—策略改进”的循环。

这个想法看上去和经典 actor-critic 很像，但连续时间里，Q 函数和价值函数不再只是简单递推，而是要通过系统生成元来计算，也就是涉及漂移项、扩散项、梯度和 Hessian。说得朴素一点，网络不仅要会“猜分数”，还得会理解局部几何结构。这也是为什么文章里会用自动微分去算一阶导和二阶导。对熟悉深度学习的人来说，这种感觉有点像 PINNs（物理信息神经网络）和强化学习握了个手。

这种方法的优点很明显：一旦系统动力学已知，连续时间控制问题就能被端到端地优化，策略改进也有了很清晰的数学锚点。尤其是在 LQR 这类经典控制基准上，它很容易验证方法是不是靠谱。作者拿随机 LQR 做例子，也算是学术圈一种经典“先拿标准题验明正身”的操作。

但短板也同样明显。第一，它相当依赖模型已知，也就是 drift 和 diffusion 要写得出来。现实中，很多复杂环境并没有这么“诚实”。第二，二阶导数计算的代价不低，维度一高，训练稳定性和效率都可能出问题。第三，连续时间 PDE 求解本身就有“维数灾难”的老毛病，神经网络只是把问题变得可训练，不是把难度彻底消灭。所以我更愿意把这类方法看作一个强理论、强结构的工具箱，而不是能一键替代现有深度 RL 的万能方案。

当控制论回潮，AI 也许会少一点“玄学”

过去几年，AI 圈一个很微妙的变化是：原本相对边缘的控制理论、最优传输、随机分析，正在重新进入主舞台。原因并不复杂。大模型让大家看到了数据驱动方法的威力，但也暴露了黑盒系统在稳定性、可靠性、样本效率和可控性上的不足。一旦 AI 进入机器人、医疗、金融、能源这些高风险场景，单靠“训练出来就行”显然不够。

HJB 这类工具的重新流行，某种程度上是一种行业纠偏。它提醒我们，智能系统不只是模式匹配器，也可以被看作需要证明、需要约束、需要最优性保证的动态系统。这种视角不会让神经网络失效，反而可能让它们更像工程系统，而不只是会吐 token 的统计机器。

我个人最在意的，是这背后的一个问题：未来的 AI 研究，会不会重新走向“结构化”——也就是把物理约束、动力学模型、控制目标和学习过程更紧地揉在一起？如果答案是肯定的，那么像 HJB 这样的老方程，可能会在新时代拥有第二次青春。它不会取代 Transformer，也不会让扩散模型一夜变成控制器，但它很可能成为连接不同 AI 子领域的底层语法。

从这个角度看，这篇文章不是在介绍一个冷门公式，而是在提示一条值得关注的趋势：AI 的下一阶段，也许不是更大的模型，而是更深的结构。行业已经为“规模”疯狂了足够久，接下来，可能轮到“可解释的最优性”重新获得掌声了。

一条 19 世纪的方程，正在悄悄改写强化学习和扩散模型

HJB方程回潮

方程本质

连续时间动态规划

跨学科同构

连续时间RL

摆脱离散格子

引入随机噪声

重塑生成模型

黑盒变受控过程

工程化鸿沟

神经网络解PDE

求解机制

应用瓶颈

AI结构化转向

补足黑盒缺陷

底层语法融合

从 Bellman 到扩散模型：AI 没那么“新”了

为什么连续时间突然重要了

一条方程，怎样把强化学习和生成模型拴在一起

神经网络开始解 PDE：听起来冷门，其实很现实

当控制论回潮，AI 也许会少一点“玄学”