当AI使用量变成KPI：霍夫曼力挺“Tokenmaxxing”，硅谷却开始担心跑偏了

人工智能 2026年4月15日

LinkedIn 联合创始人里德·霍夫曼公开支持企业追踪员工 AI token 使用量，认为这能帮助公司判断谁真正开始把 AI 用起来。但这场“tokenmaxxing”热潮也暴露出一个更尖锐的问题：当企业试图用一个简单数字衡量 AI 时代的效率时，究竟是在推动创新，还是在制造新的表演型工作？

Meta 刚因为内部“token 榜单”泄露而匆忙关停相关仪表盘，硅谷另一位重量级人物就站出来给这个思路“续命”了。

在日前举行的 Semafor 世界经济峰会上，LinkedIn 联合创始人、知名投资人里德·霍夫曼公开表示，企业追踪员工的 AI token 使用量，是一件“值得做的事”。他的意思并不复杂：如果一家公司正在全面拥抱 AI，那么管理层至少要知道，员工到底有没有真的在用、有没有在试、有没有把 AI 嵌入自己的日常工作流。

这番话看上去像是在讨论一个技术指标，实际讨论的却是一个越来越现实的管理问题：AI 到底该怎么考核？在这个问题上，硅谷现在给出的第一个答案，居然是“看你烧了多少 token”。这听起来很像互联网时代早期那种粗粝又直觉的管理方式——只要先有数据，哪怕数据不完美，也总比什么都看不见强。

“Tokenmaxxing”到底是什么，为什么突然火了

先把概念说清楚。所谓 token，本质上是大模型处理文本时的基本单位。你给 AI 发出一个提示词，它要读取、理解、生成内容，这一来一回都要消耗 token。对于 OpenAI、Anthropic、Google 或 Meta 这类 AI 服务来说，token 不只是技术术语，也是计费单位。简单说，token 越多，代表你调用模型越频繁、上下文越长、花的钱通常也越多。

“Tokenmaxxing”这个词，则是典型的硅谷加互联网黑话拼盘：token 加上 Z 世代流行的“maxxing”后缀，意思接近“把某件事卷到极致”。此前大家听过 looksmaxxing、sleepmaxxing，现在轮到 AI 使用量 maxxing 了。公司开始做内部排行榜，统计谁用掉了最多 token，谁最积极地和 AI 打交道，甚至借此推断谁更愿意拥抱新时代的工作方式。

这件事之所以会从一个内部管理动作变成舆论热点，关键就在于 Meta。根据外媒此前报道，Meta 内部曾有一个 AI token 使用排行榜，员工为了冲榜、刷存在感，形成了一种略带竞技意味的氛围。后来相关信息流出，引发外界讨论，Meta 随即关停了这个仪表盘。表面上看，这是一次公关止损；更深一层看，它暴露了整个行业正在摸索一个非常别扭的现实：AI 已经进入企业内部，但企业还没找到一套成熟、体面、又不容易跑偏的衡量方式。

霍夫曼支持的，其实不是“卷 token”，而是“卷实验”

霍夫曼的表态之所以值得关注，不只是因为他名气大，更因为他代表的是硅谷主流投资圈对 AI 组织化落地的一种思路。

他的核心观点可以概括成一句话：token 使用量不是生产力本身，但它可以是 adoption，也就是“采用程度”的信号。换句话说，一个人今天用了很多 token，并不自动等于他更高效、更聪明、产出更好；但如果整个组织里只有少数人在碰 AI，大多数人还站在门外，那这家公司的 AI 战略多半还停留在 PPT 阶段。

这其实是个很典型的“先看行为，再谈结果”的管理逻辑。很多新技术刚进入企业时，都经历过类似阶段。移动互联网时代，老板先看谁下载了企业协作 App；云计算时代，管理层先看各部门是否开始把业务迁到云上；到了今天，AI 时代的初级指标，就变成了 token。霍夫曼真正支持的，未必是把员工变成“烧 token 机器”，而是希望企业鼓励一种更广泛、更高频的实验文化。

他还特别补充了一点，我认为这恰恰是这场争论里最重要的刹车装置：token 数据必须结合上下文理解。有人花了很多 token，可能是在做严肃试验，也可能只是漫无目的地试玩；有人 token 用得不多，但把一个高价值流程做成了自动化，效果反而远胜“重度使用者”。如果离开业务场景只盯着排行榜，那 token 就会从一个观察窗口，迅速变成一种荒诞的办公室游戏。

一个危险信号：企业可能又在迷恋“容易量化的东西”

我对这件事最复杂的感受在这里。霍夫曼说得并不离谱，甚至可以说相当克制；但现实世界里的企业执行，往往没那么克制。

管理学里有一个老问题：凡是可以被量化的东西，最后都很容易被误当成目标本身。浏览量不等于影响力，打卡时长不等于勤奋，代码行数不等于工程质量，开会次数也不等于组织效率。今天轮到 AI 时代，这个陷阱换了个皮：token 消耗量不等于真正创造了价值。

如果公司把 token 排行榜做成内部荣誉体系，员工很可能迅速学会“表演给指标看”。比如，为了证明自己在积极使用 AI，故意把原本几分钟能解决的问题，拆成十几轮对话；比如，用大模型生成一堆其实没有业务价值的内容；再比如，团队开始围绕“谁更会用 AI”构建新的职场话语权。到最后，组织也许收获了一个漂亮的 adoption 曲线，却未必得到真正的效率提升。

这正是很多工程师反感 tokenmaxxing 的原因。有人把它形容成“按花钱多少给员工排名”，这个比喻虽然有点尖刻，但并非没有道理。因为 token 本身带着成本属性：它不只代表使用量，也代表算力消耗和预算支出。一个企业如果只奖励“用得多”，却不考核“用得值不值”，很可能把 AI 采纳变成一场昂贵的热闹。

更微妙的是，AI 工具天然存在岗位差异。程序员、产品经理、市场团队、客服团队，对 token 的消耗结构完全不同。有人需要长上下文推理，有人只需要快速摘要；有人做代码重构，一次对话就很长，有人只是润色邮件。把这些人放在同一张榜单上比较，本身就不太公平。看上去是数据驱动，实际上可能只是统计学上的偷懒。

为什么这场争论会在2026年爆发

如果把时间点拉开看，这场争论一点都不偶然。2023 年和 2024 年，企业还在问“要不要上 AI”；2025 年，问题变成“怎么把 AI 接进现有业务”；到了 2026 年，最现实的问题已经是“钱花了，团队也接入了，然后呢？”

也就是说，AI 正从“战略口号”进入“组织治理”阶段。一旦技术进入管理体系，就一定会遭遇考核、预算、协同、权限、培训这些看起来不性感、却真正决定成败的环节。tokenmaxxing 的流行，本质上是企业试图给 AI 找一个可视化、可追踪、可汇报的管理抓手。毕竟对很多高管来说，周报里最怕看到的不是数字不好看，而是根本没有数字。

霍夫曼还给了一个我很认同的建议：企业应该让 AI 嵌入整个组织，而不是只留给技术部门；同时建立某种固定节奏的复盘机制，比如每周分享“这周用 AI 做了什么，踩了什么坑，学到了什么”。这比冷冰冰的榜单更像是一种健康的组织学习方式。因为 AI 真正改变工作的地方，往往不在那种轰轰烈烈的大升级，而在于一个销售学会提前整理客户异议，一个法务学会快速比对合同条款，一个 HR 学会生成更好的岗位说明。

说白了，AI 落地最难的地方，从来不是把模型接进系统，而是让不同岗位的人都愿意去试、敢于试、试完还能互相传播经验。token 数据在这里当然有用，但它最多只是温度计，不是处方药。企业如果把温度计当治疗方案，最后很容易越量越焦虑。

AI时代的新考题：我们到底奖励什么样的员工

这场争论最后会落到一个很现实、也很有些刺耳的问题上：在 AI 时代，公司到底想奖励什么样的人？是“用 AI 最勤快的人”，还是“最会把 AI 变成业务成果的人”？是“最先拥抱工具的人”，还是“能把经验扩散给团队的人”？

我更倾向于后者。因为任何技术一旦进入组织，真正稀缺的都不是“会点按钮的人”，而是能把工具、流程和目标重新串起来的人。AI 不是办公软件升级版，它更像一个可塑性极强、但也很容易被滥用的新同事。你不能只统计这个同事被叫了多少次，还得看它到底帮团队完成了什么。

所以，从新闻层面看，霍夫曼支持 token 追踪，是硅谷在为 AI 管理寻找“可落地语言”；从行业层面看，这也提醒所有公司：别太快把一个方便的指标，变成一个粗暴的 KPI。技术史上有太多例子告诉我们，错误的考核方式，会把原本有前景的工具用坏。

眼下真正值得期待的，不是哪家公司做出更炫的 token 榜单，而是哪家公司能建立一套更成熟的 AI 组织方法：既能鼓励试错，又不制造表演；既能看见数据，又不被数据绑架。那才是 AI 真正开始进入企业肌肉组织的时刻。

Summary: 霍夫曼的判断并不激进：token 使用量确实能反映一家公司是否真正开始使用 AI。但我更愿意把它看成“早期体征”，而不是“最终成绩”。接下来一年，企业大概率会经历一轮从拼使用量到拼有效产出的修正过程。谁还停留在排行榜思维，谁就可能把 AI 变成新的内耗工具；谁能把 token、场景、结果和组织学习结合起来，谁才更可能真正吃到 AI 红利。

TokenmaxxingAI token 使用量里德·霍夫曼LinkedInMeta大模型企业 AI 绩效考核工作流嵌入 AIOpenAIAnthropic