2026 年,AI 编程最反常的地方不是没人用,而是很多开发者已经不愿意不用。
METR 想复现 2025 年那项实验:让开源开发者分别用 AI 和不用 AI 完成任务,测真实耗时。旧结果很刺眼——开发者普遍感觉自己更快,实测却被 AI 拖慢。AI 吐代码很快,人花在纠错、引导、等待、返工上的时间也变多了。
到了 2026 年,METR 想再测一次。模型进步了,人也更熟了,结论理应重新验证。实验却卡在招募上:不少开发者不愿为了实验短暂离开 AI。
依赖本身,已经成了新事实。
证据链不长,但方向很一致
这轮新闻的重点,不是证明 AI 编程没用。它当然有用。样板代码、局部函数、测试草稿、迁移脚本,这些场景里,AI 能明显加快生成。
问题是,生成速度不是工程生产力。更不是组织 ROI。
| 来源 / 公司 | 已知事实 | 更该读出的意思 |
|---|---|---|
| METR 2025 研究 | 开发者自认更快,实测反而变慢 | 体感生产力会骗人 |
| METR 5 月自报调查 | 技术员工认为 AI 让自己对组织价值翻倍 | 自报感知要打折 |
| METR 2026 复现实验 | 因开发者不愿不用 AI 而受阻 | AI 已进入默认工作流 |
| Amazon Kirorank | 内部 token 排行被关闭,原因包括员工刷 token、成本上升 | 用量不等于产出 |
| Uber | 前四个月用完 2026 年 AI 预算,未见可衡量生产率提升 | 成本先发生,收益未证明 |
| SMU 研究 | AI 代码可能增加长期维护成本 | 债会延后结算 |
Amazon 和 Uber 的案例不能被夸大。它们不能证明 AI 投入导致财务恶化,也不能证明 AI 编程失败。
它们至少说明一件事:当组织把 token、调用量、生成量当成进步指标时,激励会走偏。员工会刷用量,预算会先烧掉,管理层却未必能拿到可衡量的生产率提升。
这才是最麻烦的部分。
代码不是写完就结束。真正贵的是读、改、测、上线、回滚、排障,以及三个月后没人敢碰。
James Shore 那句话很准:如果写代码快了两倍,维护成本最好也减半。否则只是把临时提速换成永久负债。
不好听,但像工程世界的老规矩。复杂度不会消失,只会换个地方记账。
受影响的不是“会不会用 AI”,而是谁来兜底
开发者当然不该拒绝 AI。这个争论已经过时了。
IDE、搜索引擎、Stack Overflow,当年也都改变过程序员的工作方式。AI 编程工具会留下来,而且会继续变强。
真正的分水岭在三件事:
- 代码审查能不能跟上;
- 架构能力能不能压住复杂度;
- ROI 里有没有算进维护成本。
对开发者来说,动作很具体:别只学 prompt。更要学会拆任务、写验收条件、读 AI 生成的 diff、补测试、追依赖影响。
以后区分程序员水平的,不是“会不会让 AI 写代码”。这会很快变成默认技能。差距会落在谁能判断这段代码该不该进主干。
对技术负责人和企业管理者来说,采购也该慢半拍。不是不用,而是别被演示效果牵着走。
如果一个团队上线 AI 编程工具,只看 token、代码行数、ticket 关闭数,基本是在奖励表面繁荣。更该看的指标是这些:
| 该少看的指标 | 该多看的指标 |
|---|---|
| token 消耗 | 单个需求的端到端交付时间 |
| 代码行数 | 缺陷率和返工次数 |
| 生成次数 | Code review 耗时 |
| ticket 关闭数 | 线上事故、回滚、热修复 |
| 员工自报提效 | 维护周期和接手成本 |
如果这些后台指标没有改善,AI 编程只是在把工作从“写代码”转移到“修代码”和“审代码”。
这不是进步的反面。它只是进步的账单。
把 AI 当 junior 审,而不是当外包放飞
Code Rabbit 称 AI 生成代码的问题数是人工代码的 1.7 倍。Entelligence AI 的创始人也说,一些公司 44% token 花在修 AI 自己制造的 bug 上。
这些数据要打折。卖代码审查、工程效率工具的人,天然更愿意强调风险。
但它们和 SMU 研究指向同一个方向:AI 代码可能增加长期维护成本。这个方向不能忽视。
更稳妥的做法,是把 AI 当 junior developer 审,而不是当一个可以交付整块系统的外包团队。
连 Devin 背后的 Cognition CEO Scott Wu 也承认,这类 agent 现在大致在 junior 到 mid-level 之间,具体还看任务。能独立处理一些活,不等于可以交出去就忘。
“天下熙熙,皆为利来。”放到今天,就是企业想要速度红利,员工想证明自己会用新工具,工具厂商想把调用量变成增长故事。
这很正常。铁路、电力、PC、互联网,每一轮技术扩张都会先卖速度。历史不完全一样,但人性很像:先把收益讲满,再把治理补上。
AI 编程现在也走到这一步。
我更在意的不是模型还能不能更强。它大概率会更强。更关键的是,组织有没有能力把强工具关进工程纪律里。
能关进去,AI 是杠杆。关不进去,AI 就是放大器:放大手速,也放大粗糙;放大产出,也放大审查压力。
开头那个 METR 招不到“无 AI 开发者”的实验,已经说明一半现实:AI 不再是可选变量。
剩下的一半现实更硬:既然离不开,就别用幻觉算账。代码写得快只是起点。谁能少欠维护债,谁才真的赢。
