亚马逊这条 AI 新闻,最扎眼的不是 MeshClaw 有多强,而是员工开始“刷 token”。
据 FT 报道,亚马逊近期广泛部署内部 AI 工具 MeshClaw。它可以让员工创建 AI agent,连接办公软件,并代表用户执行任务。公司还推动 AI 使用目标,比如超过 80% 开发者每周使用 AI,并曾展示团队级 AI 使用统计和 token 消耗排行榜。
结果很快跑偏。有员工称,一些同事开始用 MeshClaw 自动化额外、非必要的 AI 活动,只为提高 token 消耗。内部把这种行为叫 tokenmaxxing。
要先把边界说清。报道没有说亚马逊正式要求员工刷 token,也没有证明 token 已进入绩效考核。亚马逊的回应是:token 数据不用于绩效评估,经理也被劝阻不要把 token 用量当绩效指标。
但管理里最微妙的地方就在这里。一个数字不必写进 KPI。只要它被展示、被比较、被经理看见,它就已经开始施压。
这件事到底发生了什么
| 关键项 | 已知事实 | 反常点 |
|---|---|---|
| 工具 | MeshClaw 可连接办公软件,替用户执行任务 | 从“建议”跨到“代办” |
| 使用压力 | 亚马逊推动开发者每周使用 AI,目标包括超过 80% | 采用率被量化成组织目标 |
| 排行榜 | 公司曾展示团队级 AI 使用统计和 token 消耗排行 | token 被包装成积极程度 |
| 员工行为 | 有员工称同事自动化非必要 AI 活动来提高消耗 | 使用量开始脱离真实工作价值 |
| 公司回应 | 亚马逊称 token 不用于绩效,经理被劝阻不要用它考核 | 但可见数据已足够影响行为 |
MeshClaw 的产品叙事很顺。自动化重复任务,帮员工省时间,让团队更快试 AI。亚马逊也表示,它每天帮助数千名员工自动化重复工作,是团队实验和采用 AI 的例子。
问题是,它不是普通聊天机器人。
报道提到,MeshClaw 可以发起代码部署、处理邮件、连接 Slack 等应用。内部备忘录甚至描述它会在夜里继续学习,在你开会时监控部署,在你醒来前整理邮件。
这类 agent 真有用。也真敏感。
AI 一旦能替人行动,错误就不再停在回答框里。它可能发错消息、误判邮件、触发部署,把一次本可被人类拦下的小错放大。报道中有员工担心它的默认安全姿态,害怕让它独自运行。
目前没有证据显示 MeshClaw 已造成安全事故。争议还停在担忧层面。但这种担忧不矫情。企业 AI 从“帮你想”走到“替你做”,权限边界就必须重算。
受影响最大的是管理者和开发者
对科技公司管理者来说,这件事的提醒很直白:别把 AI 使用量当成 AI 落地成果。
如果团队要推 AI,指标可以有,但不能只看 token、调用次数、周活人数。更该看四件事:缺陷率有没有下降,交付周期有没有缩短,重复劳动有没有减少,权限事故和返工有没有增加。
否则,员工会学会一件事:让系统看见我用了 AI。
对开发者来说,麻烦更具体。AI 工具越接近代码部署、工单流转、邮件处理,越要给自己留边界。哪些任务能交给 agent,哪些任务必须人工确认,哪些操作需要审批和日志,不能等出了事再补。
这不是保守。是工程常识。
当一个工具能连 Slack、看邮件、碰部署,它就不只是效率插件。它已经进入工作流的控制层。开发者要调整的不是“用不用 AI”,而是“让 AI 在哪里停手”。
关注 AI 落地和绩效指标的人,也该看明白一个现实:公司嘴上说“不考核”,不等于员工不会按考核来行动。只要经理能看到排名,团队能横向比较,数字就会变成暗号。
“天下熙熙,皆为利来。”今天的利未必是奖金,可能只是显得更积极、更懂 AI、更跟得上公司方向。
真正该盯的不是 token,而是虚假采用
我不太买账的是,把这类现象简单归为员工投机。
大型组织里,只要把一个数字挂出来,总有人优化它。过去互联网公司迷恋 DAU、时长、打开率,后来很多产品都被这些指标带偏。数字好看,体验未必更好;报表顺滑,价值未必真实。
AI 也一样。token 消耗不是生产力,prompt 次数不是工作质量,AI 采用率也不等于组织进步。
亚马逊今年预计资本开支达 2000 亿美元,其中绝大部分投向 AI 和数据中心基础设施。钱花到这个规模,管理层当然需要证明组织真的在用 AI。最容易拿出来的,就是使用率、调用量、token 消耗。
这就是风险所在。最容易量化的东西,往往最容易被表演。
接下来要看三件事。
| 观察点 | 为什么重要 |
|---|---|
| 亚马逊是否调整 token 排行榜和团队可见数据 | 如果排名继续存在,员工压力不会消失 |
| MeshClaw 的权限是否分级、审批、可审计 | agent 能代办越多,越需要硬边界 |
| AI 使用目标是否转向结果指标 | 只看用量,会继续鼓励虚假采用 |
这件事和早年的泰勒制有一点相似,但不完全一样。泰勒制把动作拆细、计时、考核,追求的是工业效率。今天的企业 AI 指标化,把知识工作也拆成可统计的调用和消耗,追求的是“看起来已经智能化”。
问题是,写代码、做判断、处理协作,不是拧螺丝。你可以统计 token,却很难用 token 证明一个系统变好了。
AI 落地需要推动。很多员工不会自然改变工作流,组织也需要压力。可压力必须指向结果,不该指向消耗。
如果管理层只问“用了多少 AI”,员工就会回答一个很好看的数字。至于这个数字有没有减少返工、提升质量、缩短交付,反而被挤到后面。
开头那个“刷 token”的荒诞场景,其实是一个提醒:当公司把 AI 变成姿态,员工就会把姿态练得很熟。技术没有撒谎,指标替人撒了谎。
