一家公司给员工配了 Copilot、ChatGPT Enterprise、Claude、Cursor,看起来已经进了 AI 时代。
但管理层很快会撞上一个更刺耳的问题:大家确实在用,账单也确实在涨,公司到底学到了什么?
Robert Glaser 这篇文章抓住的,就是企业 AI 落地后的“混乱中段”。AI 不再是少数人的试点。它已经钻进代码审查、故障排查、原型开发、客服自动化、销售文档和合规流程。
问题不在员工不用。问题在个人提速没有自动变成组织学习。
AI 进了工位,组织还停在采购表里
很多企业现在的 AI 落地,表面很热闹。
买许可证,做培训,建冠军网络,搞 PoC,开分享会。管理层能看到席位激活、prompt 数、使用率、几个适合上汇报材料的案例。
这些不是没用。但它们太像采购项目,不像学习系统。
真正有价值的实践,常常藏在更小的工作回路里。比如一次代码 review 里,AI 帮工程师更早发现边界条件。一次故障排查里,模型把排查路径缩短了。一次产品原型里,坏想法提前死掉了。
这些东西很难写进月度 PPT,却最接近组织能力。
| 场景 | 表面容易看的指标 | 真正该追的变化 |
|---|---|---|
| 代码开发 | Copilot 使用率 | 哪类 review 更快发现问题 |
| 故障排查 | 生成了多少分析 | 根因定位是否更准 |
| 产品原型 | 做了多少 demo | 坏想法是否更早被证伪 |
| 客服支持 | 自动回复数量 | 高频问题是否进入流程改造 |
Ethan Mollick 提过一个有用框架:Leadership / Lab / Crowd。
领导给方向和许可。群众发现真实用例。实验室把经验转成共享能力。
企业现在卡住的,往往就是中间那段。Crowd 每天都在试,Lab 没有接住。等经验被整理成“最佳实践”,最有价值的摩擦已经被洗掉了:失败的 prompt、缺失的上下文、模型跑偏的瞬间、人类介入的判断。
这些才是学习。
“天下熙熙,皆为利来。”放到企业 AI 里,就是大家都想要效率,但很少有人愿意为学习路径付账。因为买工具快,改组织慢。
旧流程消化不了新速度
Glaser 的关键判断是:AI 改变的不是单个任务,而是工作循环。
过去软件流程重,是因为迭代贵。开会、排期、估算、验收、交接,本质上都是为了少浪费昂贵的人力循环。
现在 agentic engineering 把“从意图到原型到验证”的速度往前推。约束也跟着变了。不再只是实现能力,而是意图是否清楚、验证是否及时、判断是否可靠、反馈是否能回流。
可很多公司还在用旧流程接新速度。
两周 sprint、层层汇报、月度分享会、中心化最佳实践库,都不是废物。但它们慢。工作循环已经在小时级变化,组织吸收经验还停在月度节奏。
结果很荒诞:模型看着更强,产品反而更虚;员工跑得更快,公司学得更慢。
我更在意的不是 token 花了多少,而是这些 token 换来了什么学习。Glaser 提出的区分很重要:别只看 token-to-output,要看 token-to-learning。
也就是少问“AI 生成了多少东西”。多问这些问题:
- 哪些循环更快闭合?
- 哪些决策更好?
- 哪些模式被复用?
- 哪些想法更早被证伪?
- 哪里只是制造了更多产出?
这对企业技术管理者很直接。
如果你在管 AI 预算,不该只急着扩大许可证。先把 3 到 5 个高频工作循环挑出来:代码 review、线上故障、需求澄清、客服分流、内部知识检索。给每个循环定义“更快闭合”和“更少返工”的证据,再决定要不要加购工具。
如果你在带产品或工程团队,也别急着办全员 prompt 培训。更该让团队记录有效工作流:输入是什么,AI 做了什么,人怎么验证,哪里返工,最后能不能复用。记录不需要很重,但必须贴近真实任务。
限制也要说清。不是所有工作都适合被细粒度采集。涉及隐私、合规、客户数据和员工评价的部分,必须设边界。没有边界的“学习系统”,很容易滑向监控系统。
该建反馈路径,不是盯人仪表盘
Glaser 把企业需要的能力拆成三块:Agent Operations、Loop Intelligence、Agent Capabilities。
这三个词不用神化。它们更像一套管理框架,不是成熟行业标准。
| 能力 | 解决什么 | 单独存在的风险 |
|---|---|---|
| Agent Operations | 工具、权限、审计、数据边界 | 变成官僚管控 |
| Loop Intelligence | 看哪些 AI 工作循环真的产生学习 | 变成空洞分析 |
| Agent Capabilities | 把有效能力分发到真实场景 | 变成工具蔓延 |
三者必须打通。
只有 Operations,没有学习,AI 治理会变成审批机器。只有 Loop Intelligence,没有能力分发,看板会越做越漂亮,团队照样各玩各的。只有 Capabilities,没有边界和反馈,工具会越铺越乱。
最危险的一步,是把 AI 落地做成员工监控。
一旦公司开始按“谁用 AI 更多”打分,员工会立刻学会表演合规。该开的工具会开。该填的案例会填。真正有效、但还不稳定的实验,反而会被藏起来。
原因很现实。员工知道,一旦某个工作流被看见,它可能马上变成新的产能基线。
公司最后拿到的是最糟糕的组合:可见的使用,不可见的学习。
所以反馈系统要看工作循环,不是看人。它应该关心任务意图、模型输出、验证过程、人类判断、返工原因、复用模式,而不是给员工贴一个“AI 使用积极分子”的标签。
接下来最该观察的变量也很明确。
别只看席位有没有增加。看企业有没有把 AI 反馈接进日常工程和产品流程。看代码 review、故障复盘、需求评审、客服知识库这些地方,有没有出现可复用的新模式。看管理层问的是“花了多少 token”,还是“哪些判断变好了”。
如果问题仍然停在“我们有没有买”“员工有没有用”,那这家公司还在 AI 落地的门口转圈。
企业 AI 的分水岭已经摆在这里。买工具只是入场券,培训只是热身。真正拉开差距的,是谁能把一线零散经验变成组织记忆,再把组织记忆喂回工具、流程和能力层。
否则,AI 越普及,公司越忙。输出越来越多,学习却越来越少。
