企业 AI 的 token 狂热降温：烧钱指标退场，长循环智能体重新算账

核心摘要 Summary

企业早期用 token 用量硬推 AI 采用，甚至出现让两个 agent 空转刷量的荒诞做法；现在额度收紧、API 成本上升，“无限 token”政策开始回撤。
真正的变化不是 tokenmaxxing 死了，而是它从组织激励，转向用更多计算换更可靠结果的成本收益题。
开发者工具值得继续投，脆弱的 agent 流水线要重新算账。

有个很反常的细节：一些企业曾把员工使用 AI 的 token 数量当成采用指标，Meta 相关讨论里甚至出现过一种说法——有人让两个 agent 整天互相对话，只为把用量刷上去。

这个案例目前主要来自公开吐槽和从业者转述，不能写成 Meta 已确认的全公司正式制度。但它足够说明一个问题：当组织只奖励消耗，员工很快就会学会消耗。

现在这套玩法正在降温。OpenAI、Anthropic 收紧订阅额度、提高 API 使用成本，早期补贴不再那么宽。企业里“随便跑、无限用”的 AI 政策，也开始被 CFO 和平台团队重新审视。

我更在意的是，tokenmaxxing 并没有简单死亡。它正在分流：一种是粗暴拉用量，另一种是为更高正确率付费。前者该退场，后者才刚开始被认真定价。

第一轮 tokenmaxxing：用荒唐指标打破组织惯性

企业推广 AI，最难的常常不是采购，而是让人改工作流。

很多团队买了 Cursor、Claude Code 这类工具后，员工一开始只是试试。有人让它补测试，有人让它改脚本，有人让它做代码迁移。只有真的把任务交出去，工具才有机会进入日常流程。

所以第一轮 tokenmaxxing 不能简单骂成烧钱。它像一个很粗的破冰器：不精确，但能逼出第一次使用。

问题也在这里。token 用量不是产出，更不是质量。把它当绩效信号，结果就会滑向刷量。古德哈特定律那句话很适合放在这里：指标一旦成了目标，就不再是好指标。

阶段	企业在做什么	解决的问题	暴露的问题
早期推广	用 token 用量衡量 AI 采用	逼员工开始用工具	用量不等于产出
成本上升	收紧订阅、限制无限 token	预算回到 ROI 口径	旧激励失效
新一轮尝试	让 agent 长循环执行任务	用计算换正确率	只适合可验证任务

这对企业 AI 负责人有一个直接影响：不要再把“用得多”当作 AI 转型进度。

更现实的做法是，把指标换成任务级结果。比如代码合并周期有没有缩短，测试覆盖有没有提高，线上返工有没有减少。否则，用量报表越漂亮，预算会越危险。

成本上升后，旧激励失效；但长循环 agent 改变了计算逻辑

早期 agent 跑长任务有个硬伤：错误会累积。

一次误读需求、一次改错文件、一次没有被发现的幻觉，会被后续步骤继续放大。跑得越久，偏得越远。这就是 compounding error，可以理解成“错误复利”。

现在情况有一点变化，但要说得克制。

更好的模型、更稳的工具调用、更完整的上下文管理，再加上测试和校验反馈，让部分任务开始出现相反趋势。agent 不只是一路往前跑，而是能反复检查、修正、再推进。

这就是 compounding correctness，也就是“正确性复利”。它不是说所有任务越跑越好，而是在一些可验证任务里，多跑几轮可能提高最终正确率。

典型场景包括代码迁移、批量重构、安全测试、资料整理。它们都有一个共同点：结果能被检查。测试能跑，规则能验，差异能比对。

loops 的价值就在这里。它让 agent 围绕同一个目标反复执行：拆任务、调用工具、看反馈、修正，再进入下一轮。这样才有长任务和 24/7 运行的基础。

但现实约束也很清楚。OpenAI、Anthropic 的订阅额度在收紧，API 成本也在上升。原文并没有给出统一涨价比例，也不能推断出每家企业的成本曲线。企业能做的不是赌“越跑越聪明”，而是看每多跑一轮是否真的减少人工返工。

对平台团队来说，采购动作会变得更保守。以前可以先开大额度，让大家试；现在更可能先挑两个场景做封闭试点。跑通了再扩，不再默认全员无限用。

开发者提效值得投，脆弱 agent pipeline 要停下来算账

接下来企业要分清两类 token 消耗。

第一类是给开发者用 Claude Code、Cursor 这类工具。它们消耗 token，但替代的是工程师时间。只要代码能审、测试能跑、变更能回滚，这笔账相对好算。

第二类是为一次性业务流程堆 agent。比如数据清洗、标注、整理，本来可以用确定性代码完成，却被包装成“智能体流水线”。准确率不够，就加一个质检 agent；质检不稳，再加第三个 agent。

这种 pipeline 最容易变成新一轮 token 黑洞。成本翻倍，可靠性未必提高。

路线	适合投入的条件	主要风险	企业该怎么做
开发者工具	任务可审计，输出能测试，节省工程师时间	过度依赖生成代码	保留预算，按团队产出评估
长循环 agent	目标明确，有验证机制，失败可回滚	token 成本快速上升	小范围试点，记录每轮收益
业务 agent pipeline	流程变化大，人工成本高，规则难写	多 agent 互相补洞，可靠性不升反降	先比较确定性代码方案

最相关的两类人会马上感到变化。

企业采购会延后大额 AI 订阅，不再轻易承诺“全员不限量”。他们会要求供应商给出任务级效果，而不是只给使用率和活跃人数。

AI 平台团队会把预算从“鼓励多用”迁到“验证多跑是否有用”。开发者工具可能继续扩。没有验收标准的 agent pipeline，会被要求降级、重写，或者回到传统自动化。

这里有一个简单判断标准：如果多跑一轮 agent，不能减少人工检查、返工、事故或交付延迟，那它就不是智能化投入，只是把云账单写得更长。

回到开头那个两个 agent 空转刷量的荒诞细节，它真正提醒的不是员工会钻空子，而是企业不能用消耗替代判断。

tokenmaxxing 的旧版本，是用指标逼人上车。新版本能不能成立，只看一件事：更多计算有没有换来更可靠的结果。

企业 AI 的 token 狂热降温：烧钱指标退场，长循环智能体重新算账

Token降温

旧激励失效

破冰价值

刷量风险

成本收紧

订阅受限

采购保守

长循环重估

可验证任务

错误复利

投入分流

工具预算

流水线降级

第一轮 tokenmaxxing：用荒唐指标打破组织惯性

成本上升后，旧激励失效；但长循环 agent 改变了计算逻辑

开发者提效值得投，脆弱 agent pipeline 要停下来算账