程序员离不开 AI 写码后，维护账单开始上桌

核心摘要 Summary

到 2026 年，AI 编程工具已经从辅助选项变成默认装备，METR 甚至难以招到愿意不用 AI 的开发者做复现实验。
多项研究和企业案例指向同一个风险：代码生成更快，不等于质量更好、成本更低。
真正该算的不是 token 用了多少，而是缺陷率、返工时间、审查成本和后续维护债。

2026 年，AI 编程最反常的地方不是没人用，而是很多开发者已经不愿意不用。

METR 想复现 2025 年那项实验：让开源开发者分别用 AI 和不用 AI 完成任务，测真实耗时。旧结果很刺眼——开发者普遍感觉自己更快，实测却被 AI 拖慢。AI 吐代码很快，人花在纠错、引导、等待、返工上的时间也变多了。

到了 2026 年，METR 想再测一次。模型进步了，人也更熟了，结论理应重新验证。实验却卡在招募上：不少开发者不愿为了实验短暂离开 AI。

依赖本身，已经成了新事实。

证据链不长，但方向很一致

这轮新闻的重点，不是证明 AI 编程没用。它当然有用。样板代码、局部函数、测试草稿、迁移脚本，这些场景里，AI 能明显加快生成。

问题是，生成速度不是工程生产力。更不是组织 ROI。

来源 / 公司	已知事实	更该读出的意思
METR 2025 研究	开发者自认更快，实测反而变慢	体感生产力会骗人
METR 5 月自报调查	技术员工认为 AI 让自己对组织价值翻倍	自报感知要打折
METR 2026 复现实验	因开发者不愿不用 AI 而受阻	AI 已进入默认工作流
Amazon Kirorank	内部 token 排行被关闭，原因包括员工刷 token、成本上升	用量不等于产出
Uber	前四个月用完 2026 年 AI 预算，未见可衡量生产率提升	成本先发生，收益未证明
SMU 研究	AI 代码可能增加长期维护成本	债会延后结算

Amazon 和 Uber 的案例不能被夸大。它们不能证明 AI 投入导致财务恶化，也不能证明 AI 编程失败。

它们至少说明一件事：当组织把 token、调用量、生成量当成进步指标时，激励会走偏。员工会刷用量，预算会先烧掉，管理层却未必能拿到可衡量的生产率提升。

这才是最麻烦的部分。

代码不是写完就结束。真正贵的是读、改、测、上线、回滚、排障，以及三个月后没人敢碰。

James Shore 那句话很准：如果写代码快了两倍，维护成本最好也减半。否则只是把临时提速换成永久负债。

不好听，但像工程世界的老规矩。复杂度不会消失，只会换个地方记账。

受影响的不是“会不会用 AI”，而是谁来兜底

开发者当然不该拒绝 AI。这个争论已经过时了。

IDE、搜索引擎、Stack Overflow，当年也都改变过程序员的工作方式。AI 编程工具会留下来，而且会继续变强。

真正的分水岭在三件事：

代码审查能不能跟上；
架构能力能不能压住复杂度；
ROI 里有没有算进维护成本。

对开发者来说，动作很具体：别只学 prompt。更要学会拆任务、写验收条件、读 AI 生成的 diff、补测试、追依赖影响。

以后区分程序员水平的，不是“会不会让 AI 写代码”。这会很快变成默认技能。差距会落在谁能判断这段代码该不该进主干。

对技术负责人和企业管理者来说，采购也该慢半拍。不是不用，而是别被演示效果牵着走。

如果一个团队上线 AI 编程工具，只看 token、代码行数、ticket 关闭数，基本是在奖励表面繁荣。更该看的指标是这些：

该少看的指标	该多看的指标
token 消耗	单个需求的端到端交付时间
代码行数	缺陷率和返工次数
生成次数	Code review 耗时
ticket 关闭数	线上事故、回滚、热修复
员工自报提效	维护周期和接手成本

如果这些后台指标没有改善，AI 编程只是在把工作从“写代码”转移到“修代码”和“审代码”。

这不是进步的反面。它只是进步的账单。

把 AI 当 junior 审，而不是当外包放飞

Code Rabbit 称 AI 生成代码的问题数是人工代码的 1.7 倍。Entelligence AI 的创始人也说，一些公司 44% token 花在修 AI 自己制造的 bug 上。

这些数据要打折。卖代码审查、工程效率工具的人，天然更愿意强调风险。

但它们和 SMU 研究指向同一个方向：AI 代码可能增加长期维护成本。这个方向不能忽视。

更稳妥的做法，是把 AI 当 junior developer 审，而不是当一个可以交付整块系统的外包团队。

连 Devin 背后的 Cognition CEO Scott Wu 也承认，这类 agent 现在大致在 junior 到 mid-level 之间，具体还看任务。能独立处理一些活，不等于可以交出去就忘。

“天下熙熙，皆为利来。”放到今天，就是企业想要速度红利，员工想证明自己会用新工具，工具厂商想把调用量变成增长故事。

这很正常。铁路、电力、PC、互联网，每一轮技术扩张都会先卖速度。历史不完全一样，但人性很像：先把收益讲满，再把治理补上。

AI 编程现在也走到这一步。

我更在意的不是模型还能不能更强。它大概率会更强。更关键的是，组织有没有能力把强工具关进工程纪律里。

能关进去，AI 是杠杆。关不进去，AI 就是放大器：放大手速，也放大粗糙；放大产出，也放大审查压力。

开头那个 METR 招不到“无 AI 开发者”的实验，已经说明一半现实：AI 不再是可选变量。

剩下的一半现实更硬：既然离不开，就别用幻觉算账。代码写得快只是起点。谁能少欠维护债，谁才真的赢。

程序员离不开 AI 写码后，维护账单开始上桌

AI写码账单

默认装备

复现实验受阻

提效错觉

用量误导

维护债

返工增多

兜底分水岭

开发者能力

证据链不长，但方向很一致

受影响的不是“会不会用 AI”，而是谁来兜底

把 AI 当 junior 审，而不是当外包放飞