AI 写代码越多,开发者反而越忙?硅谷开始反思“Token 崇拜”

开发工具 2026年4月18日
AI 写代码越多,开发者反而越忙?硅谷开始反思“Token 崇拜”
硅谷开发者最近流行比拼谁的 AI token 预算更高,仿佛调用得越猛,生产力就越强。但越来越多数据表明,AI 的确带来了更多代码,却也带来了更多返工、更多技术债和更高成本——“写得快”并不等于“做得好”。

如果你这两年常看程序员社区,大概会发现一种新型炫耀方式:不是晒键盘,不是晒工位,也不是晒年包,而是晒自己的 AI token 配额。

谁能一口气跑更多 Claude Code、Cursor、Codex,谁就像拿到了新时代的“无限续杯券”。在不少团队里,token 预算甚至成了某种身份象征:预算大,意味着你被信任、被重视、也更“先进”。但问题是,开发效率这件事,从来都不是靠烧预算烧出来的。

TechCrunch 最新一篇报道把这种现象命名为“Tokenmaxxing”——你可以把它理解成“把 token 用到极致”的工作文化。这个词听上去很互联网,也很硅谷,但它背后指向的,其实是一个老问题:当工具越来越强,我们到底该用什么来衡量效率?

代码在暴涨,价值却没有同步增长

管理学里有句老话:你衡量什么,就会得到什么。软件行业对这句话的体会尤其深。早年大家迷信“代码行数”,后来发现代码写得越多,不一定系统越好,反而可能只是 bug 越多。今天,AI 编程时代把这个问题重新包装了一遍:代码行数被 token 消耗量和 PR 数量取代了。

表面上看,AI 编程工具确实很能打。开发者借助 Claude Code、Cursor、Codex 这样的工具,产出速度明显提升,提交的代码更多,Pull Request 也更多。对老板来说,这些数字非常诱人:周报更好看,仪表盘更热闹,团队似乎正在“火力全开”。

可真正的麻烦出现在几周之后。Waydev 这家做开发者效能分析的公司发现,很多工程团队看到的 AI 代码接受率高达 80% 到 90%,也就是开发者当下会把大部分 AI 生成的代码收进去。但如果把时间线拉长,去看这些代码后来有没有被大面积修改、重写、删除,所谓“真实接受率”会掉到 10% 到 30%。

这就很像装修时为了赶工,先把墙刷白、灯装上、柜子摆好,拍照时非常像样;可住进去两周才发现,插座位置不对,柜门老卡住,水管还有点漏。看起来是完工了,实际上只是把返工推迟了。

AI 没有偷懒,它只是把“写代码”变成了“改代码”

这件事为什么重要?因为它正在改变开发工作的重心。过去工程师最痛苦的环节,往往是从零开始写;现在很多人最痛苦的,反而是接住 AI 疯狂吐出来的东西,再一点点辨认哪些能留、哪些该删、哪些会在三个月后炸雷。

GitClear 在今年 1 月的一份报告里提到,常规使用 AI 编程工具的开发者,代码 churn——也就是新增代码中后来被删除、修改的比例——平均是非 AI 用户的 9.4 倍。这个数字非常刺眼。因为它意味着 AI 并不是简单把人类工作量减少了一半,而是在很多场景下,把“创作成本”转移成了“维护成本”。

Faros AI 的数据更夸张:在高强度采用 AI 编程工具的团队中,代码 churn 增长了 861%。Jellyfish 则统计了 2026 年第一季度 7548 名工程师的数据,结论同样耐人寻味:token 预算最大的工程师,确实提交了最多 PR,但生产效率并没有等比例提升——他们大约获得了 2 倍吞吐量,却花掉了 10 倍 token 成本。

翻成大白话就是:AI 能让代码像自来水一样流出来,但流出来的未必都是能喝的水。

更微妙的是,这种“高产幻觉”特别容易误导管理层。因为 PR 数、提交量、代码生成量都属于非常容易被量化和展示的指标,而代码质量、架构一致性、长期可维护性、技术债积累速度,则通常要等上线后、迭代后,甚至事故后才会露出真相。很多团队正在经历一种典型的 AI 时代错觉:仪表盘越来越漂亮,工程系统却越来越难碰。

初级工程师最兴奋,也可能最容易掉坑里

和不少开发者聊过类似工具的人,大概都能感受到一个分化趋势:资深工程师对 AI 更像“带着戒心地使用”,初级工程师则更容易“先收下再说”。

这并不奇怪。越资深的人,越知道一段代码的问题不只在语法正确,而在边界条件、性能约束、历史包袱、团队约定和系统上下文。AI 最擅长补全局部任务,却未必真正理解一个大系统为什么会长成今天这样。于是,经验越少的人,越容易把“能跑”误当成“靠谱”。

这也解释了为什么很多团队最近一边高喊 AI 提效,一边又在抱怨代码评审变得更累。以前 review 是看同事的思路,现在常常变成在一大堆“看起来像那么回事”的 AI 代码里找隐藏问题。你很难一眼看出它错在哪,因为它通常不是离谱到不能运行,而是微妙地不符合系统设计、测试策略或未来扩展方向。

从这个角度看,AI 编程并没有消灭工程判断力,反而让判断力变得更贵了。真正稀缺的,不再是“会写代码的人”,而是“知道哪些代码不该被写进去的人”。

硅谷开始买“度量工具”,说明焦虑已经很真实

一个很有意思的信号是,围绕“开发者生产力洞察”的创业公司正在升温。Waydev、GitClear、Faros AI、Jellyfish 这类公司都在做同一件事:帮企业看清 AI 编程到底有没有创造真实价值,而不是只制造更热闹的数字。

Atlassian 去年用 10 亿美元收购工程智能公司 DX,也说明大公司已经意识到,问题不在于要不要上 AI,而在于怎么证明这笔钱花得值。毕竟 AI coding agent 不是免费插件,它背后是实打实的 token 成本、云算力成本、审查成本,以及最容易被忽略的返工成本。

这让我想到 SaaS 行业早年的一个共同教训:一个工具只要足够新,企业最初看重的总是“有没有用上”;等热潮退去,真正被追问的才是“有没有 ROI”。今天的 AI 编程也一样。部署很容易,停下来思考很难。因为没有哪家公司愿意承认自己在 AI 竞赛里慢了半拍,于是大家先上车,再在车上找刹车。

但这类分析平台也有自己的局限。它们天然会强调问题,因为问题越尖锐,客户越愿意为“洞察”付费。所以看这些报告时也要保持冷静:AI 编程并非无效,更不是一场注定失败的泡沫。它的问题更像是,人们太急着把它当作效率机器,却忘了软件开发本质上是一个长期主义行业。

真正该衡量的,不是 token,而是“留下来的代码”

我觉得这轮讨论里最关键的一点,不是 AI 会不会取代程序员,而是公司会不会被错误指标带偏。

如果一个团队今天把“每周消耗多少 token”“生成了多少代码”“开了多少 PR”当成核心绩效,那它几乎必然会鼓励更多表面繁荣。工程师会更倾向于让 AI 大量生成、快速合并,先把数字做上去,至于后面谁来擦屁股,往往是未来的自己,或者倒霉的同事。

真正更有意义的指标,可能恰恰是那些不那么性感的数据:三周后还存活的代码比例,AI 生成代码在事故工单中的占比,重构频率,review 时间,单个功能从需求到稳定上线的完整周期,甚至是开发者主观疲惫度。因为软件开发不是短跑,它更像维护一座城市的地下管网。你今天铺得再快,明天漏水也得你来修。

这件事在 2026 年尤其值得看,因为 AI 编程工具已经从“尝鲜阶段”进入“组织化部署阶段”。当个体开发者偶尔用 AI 写个脚本,返工代价还有限;当成千上万名工程师在企业内部用 agent 持续产出代码,任何一点微小的质量滑坡,都会被放大成昂贵的系统性成本。

所以,“Tokenmaxxing”真正暴露的,不是开发者爱炫技,而是整个行业还没学会如何和一个极其高产、却不总是可靠的搭档共事。AI 很可能已经成为软件开发的新基础设施,但基础设施的价值,从来不靠吞吐量单独定义,而要看它能否稳定、可控、可持续地服务业务。

硅谷现在的处境有点像刚拿到一台超大马力跑车,油门踩下去的那一刻当然爽,可如果方向盘、刹车和仪表盘都还没调好,开得越快,未必离目的地越近。

Summary: 我对 AI 编程的判断并不悲观,但会比很多“效率神话”更谨慎。未来一两年,企业会继续加大 agent 和 token 投入,这个趋势不会逆转;真正会发生变化的,是考核口径会从“生成了多少”转向“最终留下多少、维护代价多高”。谁先建立起这套新度量体系,谁才可能真正吃到 AI 提效红利。否则,代码会越来越多,工程能力却可能在热闹中悄悄稀释。
AI编程工具Tokenmaxxing开发效率技术债Claude CodeCursorCodexToken预算TechCrunch生产力衡量