多家 AI 编程工具和科技公司正在把“AI 写了多少代码”放到台前。Google 称 75% 的新代码由 AI 生成,Anthropic 称约 80% 合并进生产环境的代码由 Claude 编写,OpenAI 也出现过约 80% 的说法,Cursor 的宣传口径则是企业每天生成超过 1 亿行代码。
这些数字说明 AI 编程已经进入主流开发流程,但它们不能直接证明工程效率提升。软件行业花了二十多年才把“代码行数多就是好工程师”的旧账翻过去,如今同一套指标换成 AI 口径重新登场,风险在于企业可能用采用率、代码量和成熟度等级,替代对交付结果、代码质量和客户价值的衡量。
代码行数换成 AI 占比,指标更大但更难证伪
早期 GitHub Copilot 的代表性说法是“开发者完成任务快 55%”。这个主张可以被质疑,但它至少指向结果:同一任务是否更快完成。现在的宣传重心变成了体量指标,数字更醒目,含义却更窄。
| 公司或产品 | 对外口径 | 更能说明什么 | 不能直接说明什么 |
|---|---|---|---|
| 75% 新代码由 AI 生成 | AI 工具在内部开发中使用广 | 交付是否更快、更稳 | |
| Anthropic | 约 80% 生产代码由 Claude 编写,工程师季度代码量提升 | Claude 深度进入开发流程 | 代码理解和维护成本是否下降 |
| OpenAI | 约 80% 代码由 AI 生成 | 团队高度依赖 AI 辅助 | 开发者是否可替代 |
| Cursor | 企业每日生成 1 亿行以上代码 | 产品使用规模扩大 | 代码是否产生业务价值 |
体量指标不是没有价值。采购负责人可以用它判断工具渗透率,团队负责人也能看出员工是否愿意使用新工具。但它不是绩效表。代码写得更多,可能是更快交付,也可能是更多返工、更高审查压力和更重的维护负担。
研究证据不支持简单的效率神话
关于 AI 编程的证据正在变复杂。Cui 等研究覆盖近 5000 名开发者,显示任务完成量提升 26%,初级开发者收益更大。这支持“AI 能提高部分开发效率”的判断。
另一组结果给出了相反提醒。GitClear 分析指出,Copilot 使用加深后代码 churn 上升、重构下降,意味着团队可能在写更多短期变更,却减少了长期维护动作。Anthropic 自己的研究也显示,AI 辅助开发者对刚交付代码的理解得分低 17%,且没有统计显著的生产率提升。
METR 的案例更能说明测量难度。它早期研究曾发现有经验的开源开发者在熟悉代码库中使用 AI 反而慢 19%,但 2026 年后续更新改为认为可能出现提速,只是误差很大,原有实验设计也难继续使用:开发者不愿不用 AI,代理式工作也很难准确自报耗时。
公司层面同样不能高估。NBER 对约 6000 名高管的调查显示,69% 企业已经主动使用 AI,但约九成没有看到可衡量的生产率影响。行业里更稳妥的估计,是组织收益大致在 10% 左右。这个幅度有商业意义,却远不到“开发者不再需要”的程度。
技术管理者该把预算和裁员依据拉回结果
真正受影响的是工程管理者和采购团队。AI 编程工具已经不再是试用玩具,GitHub Copilot、Claude Code、Cursor、OpenAI Codex 类产品正在进入统一工具链、培训预算和绩效讨论。问题不是要不要用,而是用什么证明它有效。
Block 和 Atlassian 的案例让风险更具体。Jack Dorsey 在 Block 大幅裁员时把 AI 工具作为“小团队做更多事”的核心论据之一;Atlassian 裁员约 10% 时也承认 AI 改变所需技能和岗位数量。原文同时提醒,至少有公司称业务仍强劲,不能把这些调整简单写成财务恶化,也不能只凭 AI 采用率或代码量证明人员冗余。
更合理的做法是把 AI 当作工作起点,而不是业绩终点。工程团队仍应看 DORA 指标、故障率、交付周期、重构质量、客户留存、收入贡献。接下来最该观察的,不是哪家公司宣布 90% 代码由 AI 写成,而是这些团队是否用更少返工、更少事故和更快产品迭代证明了这件事。
AI 编程已经值得日常使用。把它纳入预算也合理。但如果供应商报告和内部 OKR 只剩下 token、代码行数、AI 代码占比,管理层看到的只是热闹,不是生产力。
