亚马逊关掉了一个内部 AI 使用榜单。

这个榜单按员工使用 AI 工具的程度排名,和 Kiro 个人仪表盘、PhoneTool awards 等内部展示机制相关。官方说法是,项目已经完成提升 AI 认知和采用的目标。员工给 404 Media 的说法更刺耳:榜单可被轻易操纵,还会诱导无效任务和 token 消耗。

这件事有意思的地方,不是“亚马逊 AI 战略失败”。目前没有证据能这么说。它真正暴露的是一个更常见的管理问题:当公司把 AI 使用量拿来排名、发徽章、做反馈,员工会先优化数字,而不一定优化工作。

榜单怎么来的:官方说推广认知,员工感到压力

据 404 Media 报道,亚马逊内部公告提到,个人 Kiro dashboard 和 PhoneTool awards 的目标,是让员工了解 AI 如何加速开发工作。PhoneTool 是亚马逊内部员工注册系统,PhoneTool awards 类似展示在名字旁的徽章。

亚马逊发言人称,一个名为 KiroRank 的内部仪表盘由员工创建,用来推广 AI 加速工作的认知,并非鼓励“为了使用而使用”。公司还表示,这个 beta dashboard 不是正式批准工具,现已废弃。

亚马逊的口径还包括两点:公司不强制团队使用 AI 工具,也不跟踪团队使用量;但会衡量 token utilization,用来理解成本和效率模式。

员工看到的是另一面。多名员工向 404 Media 表示,榜单对公司员工开放,排名可以被操纵。至少一名员工承认,自己曾通过与本职工作无关的任务提高排名。还有一名员工称,自己是在绩效反馈中被指出 AI 使用不足后,开始刷高榜单数字。

这里要分清边界。亚马逊没有正式承认员工作弊,也不能把榜单关闭直接归因于作弊。现在能确认的是:官方解释和员工感受之间,出现了明显缝隙。

维度官方表述员工反馈可以得到的判断
榜单定位提升 AI 认知和采用形成可见排名压力展示机制可能滑向考核信号
相关机制Kiro dashboard、PhoneTool awards排名和徽章可被看到公开展示会放大激励
核心指标AI 使用量、token utilization可用无关任务抬高用量不等于有效产出
关闭原因项目已达到目标,beta dashboard 已废弃员工怀疑与浪费有关目前看不清真实内部动因

最大的问题不是 AI,而是把“用量”当成绩效替身

企业当然要看 AI 采用情况。不看数据,采购预算、培训安排、安全边界都很难管理。

但 token 数、调用次数、使用时长,本质上更接近行为数据和成本数据。它们能说明员工碰没碰工具,却不能直接说明工作有没有变快、质量有没有变好、返工有没有减少。

这不是 AI 才有的问题。

协作软件也经历过类似阶段。Slack 消息数、Jira 工单数、GitHub commit 数都能反映活跃度,但如果拿来排名,就容易鼓励刷存在感、拆碎任务、提交低价值改动。指标一旦变成荣誉,行为就会围着指标转。

生成式 AI 还多一层成本。每次调用都可能带来 token、算力和预算消耗。如果员工为了排名制造用量,企业得到的不是采用率,而是一张更贵的假热闹。

404 Media 原文还提到,一些科技公司高管已经把“最大化 AI 使用”视作先进管理信号,甚至拿 AI 工具花费超过人力成本来展示力度。这种气氛会传到一线。

如果经理关心的是“你有没有用 AI”,而不是“AI 帮你少返工了多少”,员工最理性的动作就可能是把数字做上去。

这不是道德判断,而是激励设计的常识。上有所好,下必甚焉。

对员工和管理者,真正要改的是动作

对科技公司员工来说,这类榜单最直接的影响,是改变工作选择。

如果绩效反馈里出现“AI 使用不足”,员工会先保护自己。更现实的做法不是盲目刷量,而是留下可解释的使用记录:哪些任务用了 AI,节省了什么步骤,哪些输出被人工复核,哪些场景不适合用。

这能把讨论从“你用得少”拉回“你用得是否有效”。

对技术管理者来说,AI 推广不能只看采用率。采用率可以作为入口指标,但不能单独拿来奖励、排名或暗示绩效。否则团队会把管理层想要的数字交上来,真实效率反而更难看清。

更稳的做法,是把 AI 使用数据和结果指标放在一起看:

管理选择容易得到什么风险更合适的配套指标
按 token 或调用量排名使用量快速上升无效消耗、刷榜、虚假采用成本/任务、人工复核时间
按是否使用 AI 发徽章员工更愿意尝试把尝试误当产出适用场景、最佳实践沉淀
把 AI 纳入绩效反馈推广阻力变小员工为自保制造用量缺陷率、交付周期、返工率
只看产出不看使用避免刷量难以判断工具投入是否有效使用日志、案例复盘、成本曲线

对关注企业 AI 落地的人,这条新闻给出的动作很具体:如果公司准备采购或扩容 AI 工具,不妨先延后“用量排名”和“强制采用”这类设计,把试点目标改成少数可验证场景。

比如代码补全、测试生成、文档整理、客服草稿。每个场景都要能回答三个问题:节省了多少时间,增加了多少复核成本,质量有没有下降。

对技术团队负责人,接下来该看的也不是亚马逊还推不推 AI。它当然还会推。真正该看的是指标怎么改:还给使用量发徽章,还是转向成本效率、交付质量和可复用经验。

前者容易热闹,后者更难。但企业 AI 落地,最后拼的就是这点笨功夫。

回到开头那个榜单。它关掉以后,问题并没有消失。只要公司还想证明 AI 投入有效,就会有人想找一个简单数字。

麻烦在于,最简单的数字,往往最容易被聪明人优化掉。