2026 年,AI 编程最反常的地方不是没人用,而是很多开发者已经不愿意不用。

METR 想复现 2025 年那项实验:让开源开发者分别用 AI 和不用 AI 完成任务,测真实耗时。旧结果很刺眼——开发者普遍感觉自己更快,实测却被 AI 拖慢。AI 吐代码很快,人花在纠错、引导、等待、返工上的时间也变多了。

到了 2026 年,METR 想再测一次。模型进步了,人也更熟了,结论理应重新验证。实验却卡在招募上:不少开发者不愿为了实验短暂离开 AI。

依赖本身,已经成了新事实。

证据链不长,但方向很一致

这轮新闻的重点,不是证明 AI 编程没用。它当然有用。样板代码、局部函数、测试草稿、迁移脚本,这些场景里,AI 能明显加快生成。

问题是,生成速度不是工程生产力。更不是组织 ROI。

来源 / 公司已知事实更该读出的意思
METR 2025 研究开发者自认更快,实测反而变慢体感生产力会骗人
METR 5 月自报调查技术员工认为 AI 让自己对组织价值翻倍自报感知要打折
METR 2026 复现实验因开发者不愿不用 AI 而受阻AI 已进入默认工作流
Amazon Kirorank内部 token 排行被关闭,原因包括员工刷 token、成本上升用量不等于产出
Uber前四个月用完 2026 年 AI 预算,未见可衡量生产率提升成本先发生,收益未证明
SMU 研究AI 代码可能增加长期维护成本债会延后结算

Amazon 和 Uber 的案例不能被夸大。它们不能证明 AI 投入导致财务恶化,也不能证明 AI 编程失败。

它们至少说明一件事:当组织把 token、调用量、生成量当成进步指标时,激励会走偏。员工会刷用量,预算会先烧掉,管理层却未必能拿到可衡量的生产率提升。

这才是最麻烦的部分。

代码不是写完就结束。真正贵的是读、改、测、上线、回滚、排障,以及三个月后没人敢碰。

James Shore 那句话很准:如果写代码快了两倍,维护成本最好也减半。否则只是把临时提速换成永久负债。

不好听,但像工程世界的老规矩。复杂度不会消失,只会换个地方记账。

受影响的不是“会不会用 AI”,而是谁来兜底

开发者当然不该拒绝 AI。这个争论已经过时了。

IDE、搜索引擎、Stack Overflow,当年也都改变过程序员的工作方式。AI 编程工具会留下来,而且会继续变强。

真正的分水岭在三件事:

  • 代码审查能不能跟上;
  • 架构能力能不能压住复杂度;
  • ROI 里有没有算进维护成本。

对开发者来说,动作很具体:别只学 prompt。更要学会拆任务、写验收条件、读 AI 生成的 diff、补测试、追依赖影响。

以后区分程序员水平的,不是“会不会让 AI 写代码”。这会很快变成默认技能。差距会落在谁能判断这段代码该不该进主干。

对技术负责人和企业管理者来说,采购也该慢半拍。不是不用,而是别被演示效果牵着走。

如果一个团队上线 AI 编程工具,只看 token、代码行数、ticket 关闭数,基本是在奖励表面繁荣。更该看的指标是这些:

该少看的指标该多看的指标
token 消耗单个需求的端到端交付时间
代码行数缺陷率和返工次数
生成次数Code review 耗时
ticket 关闭数线上事故、回滚、热修复
员工自报提效维护周期和接手成本

如果这些后台指标没有改善,AI 编程只是在把工作从“写代码”转移到“修代码”和“审代码”。

这不是进步的反面。它只是进步的账单。

把 AI 当 junior 审,而不是当外包放飞

Code Rabbit 称 AI 生成代码的问题数是人工代码的 1.7 倍。Entelligence AI 的创始人也说,一些公司 44% token 花在修 AI 自己制造的 bug 上。

这些数据要打折。卖代码审查、工程效率工具的人,天然更愿意强调风险。

但它们和 SMU 研究指向同一个方向:AI 代码可能增加长期维护成本。这个方向不能忽视。

更稳妥的做法,是把 AI 当 junior developer 审,而不是当一个可以交付整块系统的外包团队。

连 Devin 背后的 Cognition CEO Scott Wu 也承认,这类 agent 现在大致在 junior 到 mid-level 之间,具体还看任务。能独立处理一些活,不等于可以交出去就忘。

“天下熙熙,皆为利来。”放到今天,就是企业想要速度红利,员工想证明自己会用新工具,工具厂商想把调用量变成增长故事。

这很正常。铁路、电力、PC、互联网,每一轮技术扩张都会先卖速度。历史不完全一样,但人性很像:先把收益讲满,再把治理补上。

AI 编程现在也走到这一步。

我更在意的不是模型还能不能更强。它大概率会更强。更关键的是,组织有没有能力把强工具关进工程纪律里。

能关进去,AI 是杠杆。关不进去,AI 就是放大器:放大手速,也放大粗糙;放大产出,也放大审查压力。

开头那个 METR 招不到“无 AI 开发者”的实验,已经说明一半现实:AI 不再是可选变量。

剩下的一半现实更硬:既然离不开,就别用幻觉算账。代码写得快只是起点。谁能少欠维护债,谁才真的赢。