亚马逊关停内部 AI 使用榜单：用量一旦排名，就容易变形

核心摘要 Summary

亚马逊关掉了一个内部 AI 使用榜单。

这个榜单按员工使用 AI 工具的程度排名，和 Kiro 个人仪表盘、PhoneTool awards 等内部展示机制相关。官方说法是，项目已经完成提升 AI 认知和采用的目标。员工给 404 Media 的说法更刺耳：榜单可被轻易操纵，还会诱导无效任务和 token 消耗。

这件事有意思的地方，不是“亚马逊 AI 战略失败”。目前没有证据能这么说。它真正暴露的是一个更常见的管理问题：当公司把 AI 使用量拿来排名、发徽章、做反馈，员工会先优化数字，而不一定优化工作。

榜单怎么来的：官方说推广认知，员工感到压力

据 404 Media 报道，亚马逊内部公告提到，个人 Kiro dashboard 和 PhoneTool awards 的目标，是让员工了解 AI 如何加速开发工作。PhoneTool 是亚马逊内部员工注册系统，PhoneTool awards 类似展示在名字旁的徽章。

亚马逊发言人称，一个名为 KiroRank 的内部仪表盘由员工创建，用来推广 AI 加速工作的认知，并非鼓励“为了使用而使用”。公司还表示，这个 beta dashboard 不是正式批准工具，现已废弃。

亚马逊的口径还包括两点：公司不强制团队使用 AI 工具，也不跟踪团队使用量；但会衡量 token utilization，用来理解成本和效率模式。

员工看到的是另一面。多名员工向 404 Media 表示，榜单对公司员工开放，排名可以被操纵。至少一名员工承认，自己曾通过与本职工作无关的任务提高排名。还有一名员工称，自己是在绩效反馈中被指出 AI 使用不足后，开始刷高榜单数字。

这里要分清边界。亚马逊没有正式承认员工作弊，也不能把榜单关闭直接归因于作弊。现在能确认的是：官方解释和员工感受之间，出现了明显缝隙。

维度	官方表述	员工反馈	可以得到的判断
榜单定位	提升 AI 认知和采用	形成可见排名压力	展示机制可能滑向考核信号
相关机制	Kiro dashboard、PhoneTool awards	排名和徽章可被看到	公开展示会放大激励
核心指标	AI 使用量、token utilization	可用无关任务抬高	用量不等于有效产出
关闭原因	项目已达到目标，beta dashboard 已废弃	员工怀疑与浪费有关	目前看不清真实内部动因

企业当然要看 AI 采用情况。不看数据，采购预算、培训安排、安全边界都很难管理。

但 token 数、调用次数、使用时长，本质上更接近行为数据和成本数据。它们能说明员工碰没碰工具，却不能直接说明工作有没有变快、质量有没有变好、返工有没有减少。

这不是 AI 才有的问题。

协作软件也经历过类似阶段。Slack 消息数、Jira 工单数、GitHub commit 数都能反映活跃度，但如果拿来排名，就容易鼓励刷存在感、拆碎任务、提交低价值改动。指标一旦变成荣誉，行为就会围着指标转。

生成式 AI 还多一层成本。每次调用都可能带来 token、算力和预算消耗。如果员工为了排名制造用量，企业得到的不是采用率，而是一张更贵的假热闹。

404 Media 原文还提到，一些科技公司高管已经把“最大化 AI 使用”视作先进管理信号，甚至拿 AI 工具花费超过人力成本来展示力度。这种气氛会传到一线。

如果经理关心的是“你有没有用 AI”，而不是“AI 帮你少返工了多少”，员工最理性的动作就可能是把数字做上去。

这不是道德判断，而是激励设计的常识。上有所好，下必甚焉。

对科技公司员工来说，这类榜单最直接的影响，是改变工作选择。

如果绩效反馈里出现“AI 使用不足”，员工会先保护自己。更现实的做法不是盲目刷量，而是留下可解释的使用记录：哪些任务用了 AI，节省了什么步骤，哪些输出被人工复核，哪些场景不适合用。

这能把讨论从“你用得少”拉回“你用得是否有效”。

对技术管理者来说，AI 推广不能只看采用率。采用率可以作为入口指标，但不能单独拿来奖励、排名或暗示绩效。否则团队会把管理层想要的数字交上来，真实效率反而更难看清。

更稳的做法，是把 AI 使用数据和结果指标放在一起看：

管理选择	容易得到什么	风险	更合适的配套指标
按 token 或调用量排名	使用量快速上升	无效消耗、刷榜、虚假采用	成本/任务、人工复核时间
按是否使用 AI 发徽章	员工更愿意尝试	把尝试误当产出	适用场景、最佳实践沉淀
把 AI 纳入绩效反馈	推广阻力变小	员工为自保制造用量	缺陷率、交付周期、返工率
只看产出不看使用	避免刷量	难以判断工具投入是否有效	使用日志、案例复盘、成本曲线

对关注企业 AI 落地的人，这条新闻给出的动作很具体：如果公司准备采购或扩容 AI 工具，不妨先延后“用量排名”和“强制采用”这类设计，把试点目标改成少数可验证场景。

比如代码补全、测试生成、文档整理、客服草稿。每个场景都要能回答三个问题：节省了多少时间，增加了多少复核成本，质量有没有下降。

对技术团队负责人，接下来该看的也不是亚马逊还推不推 AI。它当然还会推。真正该看的是指标怎么改：还给使用量发徽章，还是转向成本效率、交付质量和可复用经验。

前者容易热闹，后者更难。但企业 AI 落地，最后拼的就是这点笨功夫。

回到开头那个榜单。它关掉以后，问题并没有消失。只要公司还想证明 AI 投入有效，就会有人想找一个简单数字。

麻烦在于，最简单的数字，往往最容易被聪明人优化掉。