Google DeepMind 在 I/O 期间做了一件挺反常的事:它把 Google Maps 里的 Street View 接进了 Project Genie。
以后用户可以基于真实地点生成可交互的世界模拟。不是只看一张全景图,而是能在街区里移动,切换天气、季节,甚至生成雪天街区、强光反射、龙卷风这类少见场景。
但这事不能理解成 Google 已经能精确复制现实城市。DeepMind 自己说得很清楚:Street View 版 Genie 还是实验功能,效果偏游戏画质,不能忠实重建街道,模型也还不是 physics-aware。
真正有意思的地方在这里:Google 正把二十年地图采集,转成世界模型的训练和生成底座。
Street View 不再只是看地图,而是变成模拟素材
Street View 已经积累超过 2800 亿张图像,覆盖 110 个国家和七大洲。这是 Google 做世界模型时很特殊的一张牌。
很多视频生成公司也能学习海量公开视频。但 Street View 的价值不只在“图多”。它还有地点、道路结构、连续视角和街区关系。
这类数据放进 Genie 后,提示词就不只是“生成一条城市街道”。用户可以锚定一个真实地点,再让模型生成不同天气、季节和罕见情境。
这更像把地图从“查位置的资料库”,推向“可试玩的空间草图”。但草图就是草图,不能拿来当测绘、取证或城市规划的准确底图。
| 对比项 | 过去的 Street View | 接入 Genie 后 | 该怎么理解 |
|---|---|---|---|
| 用户体验 | 查看静态全景图 | 在街区里移动、切换条件 | 更像互动预览 |
| 数据价值 | 导航、地点展示 | 世界模型训练与生成素材 | 地图数据被重新利用 |
| 真实程度 | 来自实拍图像 | 生成结果会偏离现实 | 不能当照片级复原 |
| 开放范围 | Google Maps 广泛可用 | 先给美国部分 Ultra 用户 | 仍是小范围实验 |
| 开发者可用性 | 成熟产品入口 | 规则和工具链还不清楚 | 暂时别按生产工具算 |
Project Genie 此前以 Genie 3 研究预览形式出现,后来面向美国 Google AI Ultra 用户开放。现在接入 Street View,范围仍然很窄:先是美国部分 Ultra 用户,未来数周才扩展到全球 Ultra 用户。
这也说明它离普通 Google Maps 功能还很远。大多数用户短期内看到的,不会是“打开地图就能进模拟城市”,而是 Ultra 订阅里的一个实验入口。
先受影响的是训练团队和原型团队
机器人和自动驾驶会比普通用户更早理解它的价值。
DeepMind 研究员 Jack Parker-Holder 举过一个例子:如果一台机器人要部署到伦敦,它平时很少遇到强日照。但偶尔阳光会从维多利亚式住宅外墙反射出来,造成强反光。
这种场景很低频,却可能影响识别和行动。Genie 可以把它模拟出来,让机器人在真实遇到前先“见过”。
自动驾驶行业对这套逻辑更熟。Waymo 已经用 Genie 3 支撑部分模拟器,训练车辆应对龙卷风、路上出现大象等极罕见事件。
Street View 的加入,理论上能让模拟更贴近具体街区。它不只服务车载视角,也可能服务行人、配送机器人或其他智能体。
但这不是 Waymo 全球扩张的捷径。自动驾驶落地还要过法规、车队运营、高清地图、远程支持和事故责任。模拟能降低“没见过”的训练成本,替代不了城市级运营。
更现实的动作是:机器人和自动驾驶团队可以把 Genie 当作边缘场景生成器,但不该把它直接当验证系统。采购和工程集成也应该慢一点,等 API、数据边界和评测方式更清楚。
游戏和旅行产品的受影响方式不一样。
游戏团队可以用它快速做真实街区的互动草图,先看动线和氛围,再决定是否投入美术资产。旅行产品也可能拿它做“冬天的纽约街角”或“暴雨里的酒店周边”这类预览。
但商业级游戏资产、建筑复原、城市规划展示,现在还不该押上去。画面质感和空间准确性都不够稳,开发者能拿到多少控制权也还没看清。
最大边界不是画质,而是它还不懂物理因果
Google 展示的样例已经能让熟悉某片街区的人认出地点。这说明模型抓住了一部分空间线索。
问题也很直白:它不是照片级数字孪生。更重要的是,它还不能可靠理解物理因果。
原文提到,在一段雪地 Joshua Tree 模拟里,一名奔跑的女性直接穿过仙人掌和灌木。这不是细节瑕疵,而是世界模型最难的一关:场景不只是要看起来像,还要能按现实规则反应。
这和 Veo 等视频生成模型形成了对照。视频模型可以在固定镜头或短片里处理纸船漂动、烟雾扩散、布料覆盖物体这类视觉规律。Genie 要同时处理空间连续、用户动作、环境反馈和多步交互,难度更高。
DeepMind 团队也承认,Genie 在准确性和质量上大约落后视频模型 6 到 12 个月。这个说法反而让判断更清楚:它不是不能用,而是只能放在合适的位置用。
接下来最该看三件事。
一是全球 Ultra 用户拿到访问后,真实地点还原是否稳定。如果同一街区多次生成差异很大,它就更适合娱乐和原型,不适合严肃训练。
二是 Google 会不会给开发者更明确的 API、权限和工作流。没有这些,团队很难把它放进正式生产链。
三是 Waymo 和机器人团队会不会把 Genie 从演示工具推进到训练闭环。只要还缺少公开评测和稳定集成,它就仍是“好玩的地图实验”,不是工程基础设施。
还有一个问题现在不能装作已经解决:真实街景进入生成式模拟后,数据授权、隐私处理、建筑和地点相关边界怎么定。Google 没有把这些产品规则讲透前,企业用户大概率会先观望。
所以这次更新的重点,不是 Google Maps 突然变成开放世界游戏。它更像一条信号:真实世界数据正在被重新打包,进入 AI 训练、模拟和交互系统。
路漫漫其修远兮。能把街景变成可玩世界,只是第一步;让这个世界遵守现实规则,才是硬仗。
