AI 写代码越多，开发者反而越忙？硅谷开始反思“Token 崇拜”

开发工具 2026年4月18日

硅谷开发者最近流行比拼谁的 AI token 预算更高，仿佛调用得越猛，生产力就越强。但越来越多数据表明，AI 的确带来了更多代码，却也带来了更多返工、更多技术债和更高成本——“写得快”并不等于“做得好”。

如果你这两年常看程序员社区，大概会发现一种新型炫耀方式：不是晒键盘，不是晒工位，也不是晒年包，而是晒自己的 AI token 配额。

谁能一口气跑更多 Claude Code、Cursor、Codex，谁就像拿到了新时代的“无限续杯券”。在不少团队里，token 预算甚至成了某种身份象征：预算大，意味着你被信任、被重视、也更“先进”。但问题是，开发效率这件事，从来都不是靠烧预算烧出来的。

TechCrunch 最新一篇报道把这种现象命名为“Tokenmaxxing”——你可以把它理解成“把 token 用到极致”的工作文化。这个词听上去很互联网，也很硅谷，但它背后指向的，其实是一个老问题：当工具越来越强，我们到底该用什么来衡量效率？

代码在暴涨，价值却没有同步增长

管理学里有句老话：你衡量什么，就会得到什么。软件行业对这句话的体会尤其深。早年大家迷信“代码行数”，后来发现代码写得越多，不一定系统越好，反而可能只是 bug 越多。今天，AI 编程时代把这个问题重新包装了一遍：代码行数被 token 消耗量和 PR 数量取代了。

表面上看，AI 编程工具确实很能打。开发者借助 Claude Code、Cursor、Codex 这样的工具，产出速度明显提升，提交的代码更多，Pull Request 也更多。对老板来说，这些数字非常诱人：周报更好看，仪表盘更热闹，团队似乎正在“火力全开”。

可真正的麻烦出现在几周之后。Waydev 这家做开发者效能分析的公司发现，很多工程团队看到的 AI 代码接受率高达 80% 到 90%，也就是开发者当下会把大部分 AI 生成的代码收进去。但如果把时间线拉长，去看这些代码后来有没有被大面积修改、重写、删除，所谓“真实接受率”会掉到 10% 到 30%。

这就很像装修时为了赶工，先把墙刷白、灯装上、柜子摆好，拍照时非常像样；可住进去两周才发现，插座位置不对，柜门老卡住，水管还有点漏。看起来是完工了，实际上只是把返工推迟了。

AI 没有偷懒，它只是把“写代码”变成了“改代码”

这件事为什么重要？因为它正在改变开发工作的重心。过去工程师最痛苦的环节，往往是从零开始写；现在很多人最痛苦的，反而是接住 AI 疯狂吐出来的东西，再一点点辨认哪些能留、哪些该删、哪些会在三个月后炸雷。

GitClear 在今年 1 月的一份报告里提到，常规使用 AI 编程工具的开发者，代码 churn——也就是新增代码中后来被删除、修改的比例——平均是非 AI 用户的 9.4 倍。这个数字非常刺眼。因为它意味着 AI 并不是简单把人类工作量减少了一半，而是在很多场景下，把“创作成本”转移成了“维护成本”。

Faros AI 的数据更夸张：在高强度采用 AI 编程工具的团队中，代码 churn 增长了 861%。Jellyfish 则统计了 2026 年第一季度 7548 名工程师的数据，结论同样耐人寻味：token 预算最大的工程师，确实提交了最多 PR，但生产效率并没有等比例提升——他们大约获得了 2 倍吞吐量，却花掉了 10 倍 token 成本。

翻成大白话就是：AI 能让代码像自来水一样流出来，但流出来的未必都是能喝的水。

更微妙的是，这种“高产幻觉”特别容易误导管理层。因为 PR 数、提交量、代码生成量都属于非常容易被量化和展示的指标，而代码质量、架构一致性、长期可维护性、技术债积累速度，则通常要等上线后、迭代后，甚至事故后才会露出真相。很多团队正在经历一种典型的 AI 时代错觉：仪表盘越来越漂亮，工程系统却越来越难碰。

初级工程师最兴奋，也可能最容易掉坑里

和不少开发者聊过类似工具的人，大概都能感受到一个分化趋势：资深工程师对 AI 更像“带着戒心地使用”，初级工程师则更容易“先收下再说”。

这并不奇怪。越资深的人，越知道一段代码的问题不只在语法正确，而在边界条件、性能约束、历史包袱、团队约定和系统上下文。AI 最擅长补全局部任务，却未必真正理解一个大系统为什么会长成今天这样。于是，经验越少的人，越容易把“能跑”误当成“靠谱”。

这也解释了为什么很多团队最近一边高喊 AI 提效，一边又在抱怨代码评审变得更累。以前 review 是看同事的思路，现在常常变成在一大堆“看起来像那么回事”的 AI 代码里找隐藏问题。你很难一眼看出它错在哪，因为它通常不是离谱到不能运行，而是微妙地不符合系统设计、测试策略或未来扩展方向。

从这个角度看，AI 编程并没有消灭工程判断力，反而让判断力变得更贵了。真正稀缺的，不再是“会写代码的人”，而是“知道哪些代码不该被写进去的人”。

硅谷开始买“度量工具”，说明焦虑已经很真实

一个很有意思的信号是，围绕“开发者生产力洞察”的创业公司正在升温。Waydev、GitClear、Faros AI、Jellyfish 这类公司都在做同一件事：帮企业看清 AI 编程到底有没有创造真实价值，而不是只制造更热闹的数字。

Atlassian 去年用 10 亿美元收购工程智能公司 DX，也说明大公司已经意识到，问题不在于要不要上 AI，而在于怎么证明这笔钱花得值。毕竟 AI coding agent 不是免费插件，它背后是实打实的 token 成本、云算力成本、审查成本，以及最容易被忽略的返工成本。

这让我想到 SaaS 行业早年的一个共同教训：一个工具只要足够新，企业最初看重的总是“有没有用上”；等热潮退去，真正被追问的才是“有没有 ROI”。今天的 AI 编程也一样。部署很容易，停下来思考很难。因为没有哪家公司愿意承认自己在 AI 竞赛里慢了半拍，于是大家先上车，再在车上找刹车。

但这类分析平台也有自己的局限。它们天然会强调问题，因为问题越尖锐，客户越愿意为“洞察”付费。所以看这些报告时也要保持冷静：AI 编程并非无效，更不是一场注定失败的泡沫。它的问题更像是，人们太急着把它当作效率机器，却忘了软件开发本质上是一个长期主义行业。

真正该衡量的，不是 token，而是“留下来的代码”

我觉得这轮讨论里最关键的一点，不是 AI 会不会取代程序员，而是公司会不会被错误指标带偏。

如果一个团队今天把“每周消耗多少 token”“生成了多少代码”“开了多少 PR”当成核心绩效，那它几乎必然会鼓励更多表面繁荣。工程师会更倾向于让 AI 大量生成、快速合并，先把数字做上去，至于后面谁来擦屁股，往往是未来的自己，或者倒霉的同事。

真正更有意义的指标，可能恰恰是那些不那么性感的数据：三周后还存活的代码比例，AI 生成代码在事故工单中的占比，重构频率，review 时间，单个功能从需求到稳定上线的完整周期，甚至是开发者主观疲惫度。因为软件开发不是短跑，它更像维护一座城市的地下管网。你今天铺得再快，明天漏水也得你来修。

这件事在 2026 年尤其值得看，因为 AI 编程工具已经从“尝鲜阶段”进入“组织化部署阶段”。当个体开发者偶尔用 AI 写个脚本，返工代价还有限；当成千上万名工程师在企业内部用 agent 持续产出代码，任何一点微小的质量滑坡，都会被放大成昂贵的系统性成本。

所以，“Tokenmaxxing”真正暴露的，不是开发者爱炫技，而是整个行业还没学会如何和一个极其高产、却不总是可靠的搭档共事。AI 很可能已经成为软件开发的新基础设施，但基础设施的价值，从来不靠吞吐量单独定义，而要看它能否稳定、可控、可持续地服务业务。

硅谷现在的处境有点像刚拿到一台超大马力跑车，油门踩下去的那一刻当然爽，可如果方向盘、刹车和仪表盘都还没调好，开得越快，未必离目的地越近。

Summary: 我对 AI 编程的判断并不悲观，但会比很多“效率神话”更谨慎。未来一两年，企业会继续加大 agent 和 token 投入，这个趋势不会逆转；真正会发生变化的，是考核口径会从“生成了多少”转向“最终留下多少、维护代价多高”。谁先建立起这套新度量体系，谁才可能真正吃到 AI 提效红利。否则，代码会越来越多，工程能力却可能在热闹中悄悄稀释。

AI编程工具Tokenmaxxing开发效率技术债Claude CodeCursorCodexToken预算TechCrunch生产力衡量