今年1月,Waymo一辆无人出租车在加州Santa Monica一所学校附近撞到一名儿童。Waymo当时用旧模型解释:一名注意力集中的人类司机可能会以约14英里/小时发生碰撞;车辆则从17英里/小时减速后,以6英里/小时撞上儿童。公司称伤者为轻伤。
这类解释听起来有用,但也会让人卡住:Robotaxi安全评估,难道只比最后撞上去时速度低不低吗?
6月10日,Waymo与代尔夫特理工大学在《Nature Communications》发表论文,提出Reference Driver人类驾驶行为模型。它想补上的,正是这块短板:更准确模拟谨慎人类司机在碰撞前怎么预判、怎么选择、怎么被意外打断。
我更在意的是这件事的边界。Reference Driver是一把更细的尺,不是一张安全胜利书。它能让比较更接近真实驾驶过程,但不能直接推出“Waymo整体比人类更安全”。
新模型改的不是分数,而是“人类司机”的定义
Reference Driver基于active inference框架。简单说,它不把司机看成等危险出现后才踩刹车的人,而是假设司机会不断预判多个未来,并选择更安全、更可预测的路径。
这比传统模型更接近城市驾驶。谨慎司机的价值,经常不在最后一秒,而在更早的几秒:提前松油、减速、换道、放弃抢行,或者干脆不把车开进冲突里。
旧模型的问题也在这里。它容易把人类司机压缩成一套末端动作:看到危险、刹车、转向、撞击。可真实道路不是反应题,更像连续选择题。
| 比较项 | 旧模型常见做法 | Reference Driver的变化 | 我的判断 |
|---|---|---|---|
| 驾驶行为 | 复现最后一秒刹车、转向 | 模拟碰撞前的连续决策 | 更接近真实驾驶 |
| 风险理解 | 危险出现后再反应 | 预判多个可能未来 | 更适合复杂城市场景 |
| 人类状态 | 主要看操作结果 | 可模拟司机的“惊讶”反应 | 解释力更强,但仍是模型 |
| 开放范围 | 多为公司内部工具 | 研究代码按学术、非商业许可开放 | 有助复现,不等于商业开源 |
代尔夫特理工大学助理教授Arkady Zgonnikov提到,新模型能模拟交通冲突中司机内部的“惊讶”状态。这个点不只是措辞新。
它意味着模型承认一件事:司机不是机械物体。司机会预期,也会修正;会提前避险,也会被突然出现的对象打乱计划。
这让Reference Driver更适合拿来讨论Robotaxi事故复盘。它问的不只是“如果人类也撞了,会撞多重”,还包括“一个谨慎人类司机是否可能更早把风险降下来”。
更合理的基准,也有清楚边界
Santa Monica校区附近的事故,是理解这套模型的现实背景之一。但这起事故仍在美国国家公路交通安全管理局(NHTSA)和国家运输安全委员会(NTSB)调查中。
责任、原因、最终结论,都不能提前写死。
这也是安全评估最难的地方。公司可以给出速度、距离、反应时间,监管者和公众却会追问更前面的事:车辆有没有提前识别儿童风险?有没有在遮挡、学校、低速混行区域采取更保守策略?如果换成谨慎人类司机,路径选择会不会不同?
Reference Driver至少给这些问题开了一个入口。它能模拟碰撞前的人类行为和“惊讶”反应,而不只复现最后一秒操作。
但入口不是结论。
它不是一个真实人类司机数据集,也不是道路物理测试工具。它是行为模型。模型假设、场景选择、参数设置,都会影响比较结果。
所以,正确用法不是拿它给Robotaxi盖章,而是把它放进事故复盘和仿真评估里,看系统在同一危险场景下是否做出了更保守、更可解释的选择。
研究代码按学术、非商业许可开放,这一点有价值。第三方研究者可以在许可范围内复现实验、检查设定、提出反例。
但这也意味着,外界暂时不能把它当成一个完全开放的商业工具来用。能不能成为行业通用基准,还要看更多机构是否愿意用同一把尺来量自己。
对从业者和监管读者,变化落在具体动作上
Waymo正在扩张到更多城市。Robotaxi一旦进入学校周边、商业街、住宅区,安全叙事就不能只靠累计里程和平均事故率。
在凤凰城郊区跑很多英里,和在洛杉矶学校附近、旧金山复杂路口跑同样里程,安全含义不一样。场景结构会改变风险。
对自动驾驶团队来说,Reference Driver最直接的影响是测试口径要变。仿真测试集不能只保留撞击前一秒的数据,更要覆盖风险形成过程:遮挡、儿童横穿、非典型路权、慢速混行、司机预期被打断的瞬间。
这会带来实际动作。团队可能需要把部分评估资源从“碰撞结果统计”迁到“碰撞前行为建模”;事故复盘报告也要解释系统为何没有更早减速、绕行或等待。
对关注出行安全与监管的科技读者来说,判断公司安全声明时也要换问法。不要只看“撞击速度更低”或“事故率更低”,还要看公司拿什么人类基准来比、场景是否公平、模型是否允许第三方复现。
城市管理者的动作会更直接。批准Robotaxi运营或扩区时,可以要求企业提交分场景评估,而不是只给总事故率。学校、医院、商业街这类区域,也应该单独看。
接下来最该看三件事:
| 观察点 | 为什么重要 | 如果做不到,说明什么 |
|---|---|---|
| 第三方能否在学术、非商业许可下复现实验 | 检验模型不是只服务公司叙事 | 基准公信力会受限 |
| 监管机构是否接受行为基准进入事故解释 | 决定它能否影响真实审查 | 仍停留在论文和博客层面 |
| Waymo是否把模型用于更多真实案例 | 看它是否敢量不利场景 | 安全叙事仍可能选择性呈现 |
这把尺最有价值的地方,不是让Waymo更容易赢,而是让比较更难糊弄。
如果一个基准只能证明自己好,它就只是话术。只有能照见短处,才配进入公共道路的安全账本。
