AI 编码工具正在把软件开发带进一个尴尬阶段:代码提交变多了,管理层看起来很开心,但几周后,很多代码又被删掉、重写,团队并没有因此更轻松。TechCrunch 报道称,硅谷开发者如今流行比拼“token 预算”——也就是一个人被允许调用多少 AI 推理资源——可多家工程分析公司的数据都在提醒同一件事:把 token 用得越猛,不等于产品做得越快。
这条新闻真正重要的地方,不是“AI 写代码会不会出错”这种老问题,而是企业终于开始碰到更现实的管理难题:当代码生产的瓶颈被放松后,评估标准、审核流程和维护成本反而成了新瓶颈。不那么重要的地方则是“token 预算大不大”本身,那更像一种内部炫耀指标,对业务结果帮助有限。
代码量在涨,但有效产出没有同步上涨
报道引用 Waydev 的客户数据称,开发者对 AI 生成代码的初始接受率可达 80% 到 90%,但如果把后续几周的返工算进去,真实留存下来的有效代码比例会掉到 10% 到 30%。这个差距说明,很多团队看到的是“合并进去了”,没看到的是“后来又改回来了”。
类似结论不只来自一家。GitClear 在 2026 年 1 月的报告里提到,AI 重度用户的代码 churn(新增后又被删改的比例)是非 AI 用户的 9.4 倍;Faros AI 在 2026 年 3 月报告中称,高 AI 采用率下的代码 churn 增长了 861%。这些数字未必精确到可以当行业标准,但方向很一致:AI 工具放大了代码吞吐,也放大了垃圾代码和技术债。
企业开始补的不是模型,而是度量体系
这也是为什么“开发者生产力洞察”这条赛道突然热起来。Waydev 过去做开发者分析,最近 6 个月几乎把平台重做了一遍,开始跟踪 Claude Code、Cursor、Codex 这类工具的元数据,试图回答两个比“写了多少”更有价值的问题:代码质量怎么样,钱花得值不值。Jellyfish 对 2026 年第一季度 7548 名工程师的分析更直接:token 预算最高的工程师,Pull Request 数量确实最多,但只是用 10 倍 token 成本换来 2 倍吞吐。
这背后还有一个更大的市场信号。Atlassian 在 2025 年收购工程情报公司 DX,交易规模达到 10 亿美元,目标就是帮客户衡量 AI 编码代理的投资回报。大公司花钱买的已经不是“会不会自动写代码”,而是“这些代码到底有没有长期价值”。这和上一代“用代码行数衡量工程师效率”的争论很像:输入指标容易量化,结果指标却更难,也更关键。
谁更受益,谁更容易踩坑
不同角色感受到的变化并不一样。原文提到一个行业里越来越常见的现象:初级工程师更容易接受 AI 生成代码,也因此承受更多返工。原因不复杂,经验不足时,很难一眼看出代码只是“能跑”还是“适合放进生产环境”。
| 人群 | 短期感受 | 真实代价 | 最现实的变化 |
|---|---|---|---|
| 初级开发者 | 写得更快,提交更多 | 返工多,代码评审压力大 | 会被要求更严格写测试、补文档 |
| 资深工程师 | 重复劳动减少 | 审核和兜底工作上升 | 更多时间花在 review、架构约束 |
| 工程经理 | 数据面板更好看 | 很难判断 ROI | 会要求统一工具链和度量口径 |
| 企业采购/管理层 | 容易看到“采用率”提升 | token 账单和隐性维护成本上升 | 预算审批会从 seat 数转向效果考核 |
如果你是工程经理,接下来最现实会遇到的不是“要不要上 AI 编码工具”,而是“怎么限制它胡乱生成”。很多团队会从鼓励自由使用,转向几项更硬的动作:统一工具、限制高成本模型、把测试覆盖率和回滚率纳入考核,而不是只看 PR 数量。
这股潮流不会退,但野蛮使用会先退潮
这里有一个原文没有展开太多的限制条件:这些数据大多来自分析平台自己的客户样本,天然偏向大中型组织,也会放大“可度量”的那部分问题。小团队、创业公司、原型开发阶段,对 AI 编码的容忍度可能更高,因为他们更在意速度,没那么在意几年后的维护账单。换句话说,AI 写代码是不是划算,和团队所处阶段关系很大。
但我的判断是,行业不会回到“少用 AI”的方向,而会走向“把 AI 当实习生而不是当资深工程师”。今天最被高估的是 token 消耗,最被低估的是 review、测试和重构成本。真正成熟的团队,接下来比拼的不会是谁买到更多 token,而是谁能更早建立一套对 AI 产出做筛选、追责和复盘的机制。
代码产量已经不再稀缺,稀缺的是能在三个月后还站得住的代码。
这句话听起来像工程管理常识,但在生成式 AI 时代,它正在重新变成预算问题、组织问题和人才问题。
