有个很反常的细节:一些企业曾把员工使用 AI 的 token 数量当成采用指标,Meta 相关讨论里甚至出现过一种说法——有人让两个 agent 整天互相对话,只为把用量刷上去。

这个案例目前主要来自公开吐槽和从业者转述,不能写成 Meta 已确认的全公司正式制度。但它足够说明一个问题:当组织只奖励消耗,员工很快就会学会消耗。

现在这套玩法正在降温。OpenAI、Anthropic 收紧订阅额度、提高 API 使用成本,早期补贴不再那么宽。企业里“随便跑、无限用”的 AI 政策,也开始被 CFO 和平台团队重新审视。

我更在意的是,tokenmaxxing 并没有简单死亡。它正在分流:一种是粗暴拉用量,另一种是为更高正确率付费。前者该退场,后者才刚开始被认真定价。

第一轮 tokenmaxxing:用荒唐指标打破组织惯性

企业推广 AI,最难的常常不是采购,而是让人改工作流。

很多团队买了 Cursor、Claude Code 这类工具后,员工一开始只是试试。有人让它补测试,有人让它改脚本,有人让它做代码迁移。只有真的把任务交出去,工具才有机会进入日常流程。

所以第一轮 tokenmaxxing 不能简单骂成烧钱。它像一个很粗的破冰器:不精确,但能逼出第一次使用。

问题也在这里。token 用量不是产出,更不是质量。把它当绩效信号,结果就会滑向刷量。古德哈特定律那句话很适合放在这里:指标一旦成了目标,就不再是好指标。

阶段企业在做什么解决的问题暴露的问题
早期推广用 token 用量衡量 AI 采用逼员工开始用工具用量不等于产出
成本上升收紧订阅、限制无限 token预算回到 ROI 口径旧激励失效
新一轮尝试让 agent 长循环执行任务用计算换正确率只适合可验证任务

这对企业 AI 负责人有一个直接影响:不要再把“用得多”当作 AI 转型进度。

更现实的做法是,把指标换成任务级结果。比如代码合并周期有没有缩短,测试覆盖有没有提高,线上返工有没有减少。否则,用量报表越漂亮,预算会越危险。

成本上升后,旧激励失效;但长循环 agent 改变了计算逻辑

早期 agent 跑长任务有个硬伤:错误会累积。

一次误读需求、一次改错文件、一次没有被发现的幻觉,会被后续步骤继续放大。跑得越久,偏得越远。这就是 compounding error,可以理解成“错误复利”。

现在情况有一点变化,但要说得克制。

更好的模型、更稳的工具调用、更完整的上下文管理,再加上测试和校验反馈,让部分任务开始出现相反趋势。agent 不只是一路往前跑,而是能反复检查、修正、再推进。

这就是 compounding correctness,也就是“正确性复利”。它不是说所有任务越跑越好,而是在一些可验证任务里,多跑几轮可能提高最终正确率。

典型场景包括代码迁移、批量重构、安全测试、资料整理。它们都有一个共同点:结果能被检查。测试能跑,规则能验,差异能比对。

loops 的价值就在这里。它让 agent 围绕同一个目标反复执行:拆任务、调用工具、看反馈、修正,再进入下一轮。这样才有长任务和 24/7 运行的基础。

但现实约束也很清楚。OpenAI、Anthropic 的订阅额度在收紧,API 成本也在上升。原文并没有给出统一涨价比例,也不能推断出每家企业的成本曲线。企业能做的不是赌“越跑越聪明”,而是看每多跑一轮是否真的减少人工返工。

对平台团队来说,采购动作会变得更保守。以前可以先开大额度,让大家试;现在更可能先挑两个场景做封闭试点。跑通了再扩,不再默认全员无限用。

开发者提效值得投,脆弱 agent pipeline 要停下来算账

接下来企业要分清两类 token 消耗。

第一类是给开发者用 Claude Code、Cursor 这类工具。它们消耗 token,但替代的是工程师时间。只要代码能审、测试能跑、变更能回滚,这笔账相对好算。

第二类是为一次性业务流程堆 agent。比如数据清洗、标注、整理,本来可以用确定性代码完成,却被包装成“智能体流水线”。准确率不够,就加一个质检 agent;质检不稳,再加第三个 agent。

这种 pipeline 最容易变成新一轮 token 黑洞。成本翻倍,可靠性未必提高。

路线适合投入的条件主要风险企业该怎么做
开发者工具任务可审计,输出能测试,节省工程师时间过度依赖生成代码保留预算,按团队产出评估
长循环 agent目标明确,有验证机制,失败可回滚token 成本快速上升小范围试点,记录每轮收益
业务 agent pipeline流程变化大,人工成本高,规则难写多 agent 互相补洞,可靠性不升反降先比较确定性代码方案

最相关的两类人会马上感到变化。

企业采购会延后大额 AI 订阅,不再轻易承诺“全员不限量”。他们会要求供应商给出任务级效果,而不是只给使用率和活跃人数。

AI 平台团队会把预算从“鼓励多用”迁到“验证多跑是否有用”。开发者工具可能继续扩。没有验收标准的 agent pipeline,会被要求降级、重写,或者回到传统自动化。

这里有一个简单判断标准:如果多跑一轮 agent,不能减少人工检查、返工、事故或交付延迟,那它就不是智能化投入,只是把云账单写得更长。

回到开头那个两个 agent 空转刷量的荒诞细节,它真正提醒的不是员工会钻空子,而是企业不能用消耗替代判断。

tokenmaxxing 的旧版本,是用指标逼人上车。新版本能不能成立,只看一件事:更多计算有没有换来更可靠的结果。