亚马逊员工“刷 token”：AI 落地最怕把使用量当生产力

核心摘要 Summary

FT 报道称，亚马逊内部 AI 工具 MeshClaw 广泛部署后，有员工开始用它自动化非必要任务，以提高 token 消耗。
亚马逊称 token 数据不用于绩效，经理也被劝阻不要把用量当考核指标；但排行榜和可见数据已经足够改变员工行为。
真正的问题不是员工偷懒，而是企业把 AI 采用率做成竞赛后，正在制造虚假采用、权限风险和管理层自我安慰。

亚马逊这条 AI 新闻，最扎眼的不是 MeshClaw 有多强，而是员工开始“刷 token”。

据 FT 报道，亚马逊近期广泛部署内部 AI 工具 MeshClaw。它可以让员工创建 AI agent，连接办公软件，并代表用户执行任务。公司还推动 AI 使用目标，比如超过 80% 开发者每周使用 AI，并曾展示团队级 AI 使用统计和 token 消耗排行榜。

结果很快跑偏。有员工称，一些同事开始用 MeshClaw 自动化额外、非必要的 AI 活动，只为提高 token 消耗。内部把这种行为叫 tokenmaxxing。

要先把边界说清。报道没有说亚马逊正式要求员工刷 token，也没有证明 token 已进入绩效考核。亚马逊的回应是：token 数据不用于绩效评估，经理也被劝阻不要把 token 用量当绩效指标。

但管理里最微妙的地方就在这里。一个数字不必写进 KPI。只要它被展示、被比较、被经理看见，它就已经开始施压。

这件事到底发生了什么

关键项	已知事实	反常点
工具	MeshClaw 可连接办公软件，替用户执行任务	从“建议”跨到“代办”
使用压力	亚马逊推动开发者每周使用 AI，目标包括超过 80%	采用率被量化成组织目标
排行榜	公司曾展示团队级 AI 使用统计和 token 消耗排行	token 被包装成积极程度
员工行为	有员工称同事自动化非必要 AI 活动来提高消耗	使用量开始脱离真实工作价值
公司回应	亚马逊称 token 不用于绩效，经理被劝阻不要用它考核	但可见数据已足够影响行为

MeshClaw 的产品叙事很顺。自动化重复任务，帮员工省时间，让团队更快试 AI。亚马逊也表示，它每天帮助数千名员工自动化重复工作，是团队实验和采用 AI 的例子。

问题是，它不是普通聊天机器人。

报道提到，MeshClaw 可以发起代码部署、处理邮件、连接 Slack 等应用。内部备忘录甚至描述它会在夜里继续学习，在你开会时监控部署，在你醒来前整理邮件。

这类 agent 真有用。也真敏感。

AI 一旦能替人行动，错误就不再停在回答框里。它可能发错消息、误判邮件、触发部署，把一次本可被人类拦下的小错放大。报道中有员工担心它的默认安全姿态，害怕让它独自运行。

目前没有证据显示 MeshClaw 已造成安全事故。争议还停在担忧层面。但这种担忧不矫情。企业 AI 从“帮你想”走到“替你做”，权限边界就必须重算。

受影响最大的是管理者和开发者

对科技公司管理者来说，这件事的提醒很直白：别把 AI 使用量当成 AI 落地成果。

如果团队要推 AI，指标可以有，但不能只看 token、调用次数、周活人数。更该看四件事：缺陷率有没有下降，交付周期有没有缩短，重复劳动有没有减少，权限事故和返工有没有增加。

否则，员工会学会一件事：让系统看见我用了 AI。

对开发者来说，麻烦更具体。AI 工具越接近代码部署、工单流转、邮件处理，越要给自己留边界。哪些任务能交给 agent，哪些任务必须人工确认，哪些操作需要审批和日志，不能等出了事再补。

这不是保守。是工程常识。

当一个工具能连 Slack、看邮件、碰部署，它就不只是效率插件。它已经进入工作流的控制层。开发者要调整的不是“用不用 AI”，而是“让 AI 在哪里停手”。

关注 AI 落地和绩效指标的人，也该看明白一个现实：公司嘴上说“不考核”，不等于员工不会按考核来行动。只要经理能看到排名，团队能横向比较，数字就会变成暗号。

“天下熙熙，皆为利来。”今天的利未必是奖金，可能只是显得更积极、更懂 AI、更跟得上公司方向。

真正该盯的不是 token，而是虚假采用

我不太买账的是，把这类现象简单归为员工投机。

大型组织里，只要把一个数字挂出来，总有人优化它。过去互联网公司迷恋 DAU、时长、打开率，后来很多产品都被这些指标带偏。数字好看，体验未必更好；报表顺滑，价值未必真实。

AI 也一样。token 消耗不是生产力，prompt 次数不是工作质量，AI 采用率也不等于组织进步。

亚马逊今年预计资本开支达 2000 亿美元，其中绝大部分投向 AI 和数据中心基础设施。钱花到这个规模，管理层当然需要证明组织真的在用 AI。最容易拿出来的，就是使用率、调用量、token 消耗。

这就是风险所在。最容易量化的东西，往往最容易被表演。

接下来要看三件事。

观察点	为什么重要
亚马逊是否调整 token 排行榜和团队可见数据	如果排名继续存在，员工压力不会消失
MeshClaw 的权限是否分级、审批、可审计	agent 能代办越多，越需要硬边界
AI 使用目标是否转向结果指标	只看用量，会继续鼓励虚假采用

这件事和早年的泰勒制有一点相似，但不完全一样。泰勒制把动作拆细、计时、考核，追求的是工业效率。今天的企业 AI 指标化，把知识工作也拆成可统计的调用和消耗，追求的是“看起来已经智能化”。

问题是，写代码、做判断、处理协作，不是拧螺丝。你可以统计 token，却很难用 token 证明一个系统变好了。

AI 落地需要推动。很多员工不会自然改变工作流，组织也需要压力。可压力必须指向结果，不该指向消耗。

如果管理层只问“用了多少 AI”，员工就会回答一个很好看的数字。至于这个数字有没有减少返工、提升质量、缩短交付，反而被挤到后面。

开头那个“刷 token”的荒诞场景，其实是一个提醒：当公司把 AI 变成姿态，员工就会把姿态练得很熟。技术没有撒谎，指标替人撒了谎。

亚马逊员工“刷 token”：AI 落地最怕把使用量当生产力

刷 token

事件跑偏

工具代办

排行施压

指标失真

口径脱钩

资本压力

权限风险

错误放大

边界重算

改看结果

质量效率

虚假采用

这件事到底发生了什么

受影响最大的是管理者和开发者

真正该盯的不是 token，而是虚假采用