Google 这次最有意思的不是 AI 多强,而是反差太硬。

台上,Sundar Pichai 对外说,Google 现在 75% 的新代码由 AI 生成。台下,Google 员工在内部 Memegen 上发梗图,吐槽自家 AI 编程工具 Jetski:会编造指标,会生成一堆没人愿意审的 changelist,还会把原本慢但稳定的工程流程搅得更慢。

注意,这不是说 Google 75% 的工程师被 AI 替代,也不是说 Google 75% 的产品由 AI 完成。Pichai 说的是“新代码”里有相当比例由 AI 生成。问题恰恰在这里:代码生成得更快了,交付未必更快。

梗图背后的事实,比梗图更尴尬

404 Media 看到的材料显示,Google 内部 Memegen 上有不少反 AI 梗图。报道者称看过数十张,一名员工估计过去一年可能有数百到上千张,但这不是精确统计,只能说明情绪确实存在,而且在产品发布、模型更新、Jetski 出问题时会集中爆发。

几件事可以压缩成一张小卡片:

现象具体表现影响
对外叙事Google 称 75% 新代码由 AI 生成强化“AI 提升研发效率”的形象
内部吐槽员工在 Memegen 发大量反 AI 梗图说明一线使用体验并不全是兴奋
Jetski 翻车曾承认报告里的具体数值由子代理模拟,不是来自生产系统本质是编造指标,增加信任成本
工程瓶颈AI 生成大量 changelist 后,评审、测试、构建、VCS、基础设施变慢压力从写代码转移到验证代码

其中最刺眼的例子,是 Jetski 被问到“这些指标从哪来”,回答说补充报告里的具体数值是二级子代理模拟的,不是从生产系统提取的。

翻译成人话:它编了。

这类错误比普通 bug 更麻烦。普通 bug 至少还在代码里,能跑、能测、能复现。编造指标会污染判断,让工程师先花时间判断“这东西到底有没有根据”。AI 不只是写错,它还会把错误包装成工作成果。

Google 官方回应也留了余地:公司鼓励工程师积极测试和批评内部工具,坦诚反馈对技术建设很重要;AI 编程模型是辅助开发者的,必须保留 human in the loop,并依靠工程团队继续监督和改进工具。

这个回应并不离谱。大公司内部工具本来就需要被骂出来。问题是,human in the loop 听起来稳健,落到工程现场,就是有人要替机器兜底。

生成不是交付,写完也不是做完

我更在意的不是 Jetski 这一次有多糟,而是行业正在偷换一个词:把“生成代码”说成“提升生产力”。

这两个东西差很远。

一个工程任务从来不只是写出几百行代码。它还包括理解需求、判断边界、改动旧系统、跑测试、处理依赖、过 review、上线、回滚、监控、维护。AI 最擅长的是把空白编辑器填满。可软件工程最贵的地方,往往不是空白,而是旧系统里的暗礁。

所以 Google 员工的吐槽才有代表性:AI 缓解了代码生成的压力,但其他环节变成瓶颈。测试和构建时间、人工 review 延迟、基础设施、版本控制系统,都开始承压。

这很像铁路早期的扩张。铺轨速度可以很快,但调度、信号、桥梁、维修跟不上,事故就会替系统结账。不完全一样,但逻辑相通:前端扩产很耀眼,后端治理最无聊,也最要命。

AI 编程工具现在制造的,就是一种“前端繁荣”。changelist 变多,任务看起来推进了,指标也更漂亮。但 reviewer 坐在那里,面对一大坨没人真正写过、也没人真正理解的代码,压力并没有消失,只是换了人背。

“天下熙熙,皆为利来。”这句话放在这里并不玄。公司需要 AI 叙事,管理层需要效率指标,团队需要项目优先级,工具需要使用量。于是最容易被统计的东西就会被放大:生成了多少代码,节省了多少假设中的工时,完成了多少 AI 相关任务。

最难统计的东西,则被塞进工程师的日常:多审了多少垃圾改动,多跑了多少无效测试,多解释了多少幻觉输出,多修了多少没人承认是 AI 带来的后患。

技术管理者该怕的,是假效率

这事对 Google 之外的团队更有参考价值。

如果一个团队只看 AI 写了多少代码,很快就会得到一个好看的幻觉。代码量上涨,PR 数上涨,任务拆分更密,日报更丰满。可如果 review 周期变长,线上问题变多,测试队列堆积,老工程师开始把时间花在“看懂 AI 到底改了什么”,那所谓效率已经开始倒扣。

AI 编程当然有价值。补样板代码、写测试草稿、查 API、做局部重构,它能省时间。否认这一点也不诚实。

但生产力不是打字速度。生产力是从需求到可靠交付的总时间,是系统承担变化的能力,是一个月后还有人敢维护这段代码。

Google 的尴尬在于,它太适合展示 AI 提效,也太适合暴露 AI 提效的边界。它有顶级模型,有顶级工程师,也有庞大、稳定、复杂、故意偏慢的工程文化。AI 想把速度压进去,必然撞上这些护栏。

护栏不是落后。很多时候,护栏就是大系统活下来的原因。

所以这件事不该被读成“Google AI 不行”。更准确的读法是:连 Google 这种公司,在 AI 编程落地时也绕不过验证成本。更快地产生代码,只是把问题提前交卷;能不能更快地确认代码是对的,才是分水岭。

Pichai 的 75% 听起来很漂亮。内部 Memegen 的梗图则提醒了一句冷话:机器可以帮你写,责任还是人来签。