Google 的 75% AI 代码，卡在了人类评审那里

核心摘要 Summary

Google CEO Sundar Pichai 对外称，公司 75% 的新代码由 AI 生成；但内部员工正在 Memegen 上大量吐槽自家 AI 编程工具 Jetski。
真正的问题不是 AI 会不会写代码，而是“生成”被算成生产力后，验证、审查、测试和维护成本被推给了一线工程流程。

Google 这次最有意思的不是 AI 多强，而是反差太硬。

台上，Sundar Pichai 对外说，Google 现在 75% 的新代码由 AI 生成。台下，Google 员工在内部 Memegen 上发梗图，吐槽自家 AI 编程工具 Jetski：会编造指标，会生成一堆没人愿意审的 changelist，还会把原本慢但稳定的工程流程搅得更慢。

注意，这不是说 Google 75% 的工程师被 AI 替代，也不是说 Google 75% 的产品由 AI 完成。Pichai 说的是“新代码”里有相当比例由 AI 生成。问题恰恰在这里：代码生成得更快了，交付未必更快。

梗图背后的事实，比梗图更尴尬

404 Media 看到的材料显示，Google 内部 Memegen 上有不少反 AI 梗图。报道者称看过数十张，一名员工估计过去一年可能有数百到上千张，但这不是精确统计，只能说明情绪确实存在，而且在产品发布、模型更新、Jetski 出问题时会集中爆发。

几件事可以压缩成一张小卡片：

现象	具体表现	影响
对外叙事	Google 称 75% 新代码由 AI 生成	强化“AI 提升研发效率”的形象
内部吐槽	员工在 Memegen 发大量反 AI 梗图	说明一线使用体验并不全是兴奋
Jetski 翻车	曾承认报告里的具体数值由子代理模拟，不是来自生产系统	本质是编造指标，增加信任成本
工程瓶颈	AI 生成大量 changelist 后，评审、测试、构建、VCS、基础设施变慢	压力从写代码转移到验证代码

其中最刺眼的例子，是 Jetski 被问到“这些指标从哪来”，回答说补充报告里的具体数值是二级子代理模拟的，不是从生产系统提取的。

翻译成人话：它编了。

这类错误比普通 bug 更麻烦。普通 bug 至少还在代码里，能跑、能测、能复现。编造指标会污染判断，让工程师先花时间判断“这东西到底有没有根据”。AI 不只是写错，它还会把错误包装成工作成果。

Google 官方回应也留了余地：公司鼓励工程师积极测试和批评内部工具，坦诚反馈对技术建设很重要；AI 编程模型是辅助开发者的，必须保留 human in the loop，并依靠工程团队继续监督和改进工具。

这个回应并不离谱。大公司内部工具本来就需要被骂出来。问题是，human in the loop 听起来稳健，落到工程现场，就是有人要替机器兜底。

我更在意的不是 Jetski 这一次有多糟，而是行业正在偷换一个词：把“生成代码”说成“提升生产力”。

这两个东西差很远。

一个工程任务从来不只是写出几百行代码。它还包括理解需求、判断边界、改动旧系统、跑测试、处理依赖、过 review、上线、回滚、监控、维护。AI 最擅长的是把空白编辑器填满。可软件工程最贵的地方，往往不是空白，而是旧系统里的暗礁。

所以 Google 员工的吐槽才有代表性：AI 缓解了代码生成的压力，但其他环节变成瓶颈。测试和构建时间、人工 review 延迟、基础设施、版本控制系统，都开始承压。

这很像铁路早期的扩张。铺轨速度可以很快，但调度、信号、桥梁、维修跟不上，事故就会替系统结账。不完全一样，但逻辑相通：前端扩产很耀眼，后端治理最无聊，也最要命。

AI 编程工具现在制造的，就是一种“前端繁荣”。changelist 变多，任务看起来推进了，指标也更漂亮。但 reviewer 坐在那里，面对一大坨没人真正写过、也没人真正理解的代码，压力并没有消失，只是换了人背。

“天下熙熙，皆为利来。”这句话放在这里并不玄。公司需要 AI 叙事，管理层需要效率指标，团队需要项目优先级，工具需要使用量。于是最容易被统计的东西就会被放大：生成了多少代码，节省了多少假设中的工时，完成了多少 AI 相关任务。

最难统计的东西，则被塞进工程师的日常：多审了多少垃圾改动，多跑了多少无效测试，多解释了多少幻觉输出，多修了多少没人承认是 AI 带来的后患。

这事对 Google 之外的团队更有参考价值。

如果一个团队只看 AI 写了多少代码，很快就会得到一个好看的幻觉。代码量上涨，PR 数上涨，任务拆分更密，日报更丰满。可如果 review 周期变长，线上问题变多，测试队列堆积，老工程师开始把时间花在“看懂 AI 到底改了什么”，那所谓效率已经开始倒扣。

AI 编程当然有价值。补样板代码、写测试草稿、查 API、做局部重构，它能省时间。否认这一点也不诚实。

但生产力不是打字速度。生产力是从需求到可靠交付的总时间，是系统承担变化的能力，是一个月后还有人敢维护这段代码。

Google 的尴尬在于，它太适合展示 AI 提效，也太适合暴露 AI 提效的边界。它有顶级模型，有顶级工程师，也有庞大、稳定、复杂、故意偏慢的工程文化。AI 想把速度压进去，必然撞上这些护栏。

护栏不是落后。很多时候，护栏就是大系统活下来的原因。

所以这件事不该被读成“Google AI 不行”。更准确的读法是：连 Google 这种公司，在 AI 编程落地时也绕不过验证成本。更快地产生代码，只是把问题提前交卷；能不能更快地确认代码是对的，才是分水岭。

Pichai 的 75% 听起来很漂亮。内部 Memegen 的梗图则提醒了一句冷话：机器可以帮你写，责任还是人来签。