经济学家Anders HumlumEmilie Vestergaard做了一件大多数AI效率研究没做过的事:把约2.5万名工人7000家丹麦企业的AI使用调查,和这些人的真实工资单对上号。结果很扎眼——用上ChatGPT之类工具后,工时平均只省下2.8%,大约一周一小时,而这部分省下的产出里,只有3%到7%最终变成了工资,收入和记录工时在任何职业里都没有显著变化。

这个数字和实验室研究完全对不上。受控实验里,AI能让专业人士写作提速40%,客服提速14%,咨询顾问提速超过25%。同一件事,两种测量口径,答案却差了一个数量级。问题不在于AI好不好用,而在于"省下的时间"和"涨薪水"之间,隔着一道几乎没人主动搭的桥。

工资单撕开的口子

丹麦这项研究的可信之处在于它没有停在问卷调查。此前大量AI生产力研究测的是任务级效率——给一个人一个具体活儿,掐表比较用不用AI的差别。这类研究结果普遍好看:453名专业人士用ChatGPT写新闻稿、报告和邮件,时间少花40%,质量评分还高出18%;5179名客服代表用上AI助手后,每小时处理的工单数平均多14%,新人多34%。

这些数字都是真的,问题是它们只回答了"这一个任务快不快",没回答"你的工作、你的收入变了没有"。丹麦研究把调查数据和payroll系统的真实记录接起来,第一次在"整份工作"和"到手薪水"这两个尺度上给出了答案:效率提升被摊薄,收入几乎纹丝不动。

三个数字,三种口径 55% 实验室任务级提速上限 2.8% 真实工时节省(约一周一小时) 3-7% 省下的产出转化为工资的比例 2.5万工人 · 7000家丹麦企业 · 调查数据对上真实工资单 来源:NBER working paper w33777

任务是真的快,活儿没那么快

不必因为这个反差就认定AI没用。它在特定任务上的加速是真实、可复现的——结构化写作、客服应答、模板化文档,都是测过的强项。丹麦数据没有推翻这些结论,它只是把"一个任务的速度"和"一份工作的产出"分开算了。

真正值得警惕的是另一件事:AI的能力边界不是一条清晰的线,而是一条参差不齐的锯齿。哈佛和BCG对758名咨询顾问做的实验里,顾问在AI擅长的范围内完成的任务多12.2%,速度快25.1%,质量评分高出40%以上。但研究者故意给了一个精心挑选、刚好落在AI能力范围之外的任务,结果用AI的顾问答对的概率反而低了19个百分点

边界内外,判若两人 能力边界内 +25.1% 完成速度提升 +40% 质量评分提升 能力边界外 -19pp 正确率下降(百分点) 758名咨询顾问,单一越界任务

AI越界时不会提醒你它越界了。它照样答得流畅、自信,只是错了。一个自信的错误答案,核查它花的时间往往比它省下的还多。这项实验只测了一个刻意挑出来的越界任务,真实工作中AI每天越界多少次、平均纠错成本多高,目前还没有公开的比例数据——这是判断"该不该在某个环节用AI"时,最容易被忽略的空白。

效率提升是真的,发生在任务;收入提升几乎没有,发生在工资单。

钱去哪了

省下的时间不会自动变成钱,这是丹麦数据里最不该被忽略的一点。工资单显示,没有哪个职业因为用AI而涨薪或者多记工时。往上看整个企业层面,2025年MIT Project NANDA的报告发现,尽管企业级AI投入达到300亿到400亿美元规模,95%的组织从中获得的回报接近于零,大多数试点项目根本没摸到损益表的门槛,只有约5%真正提取出了价值。

  • 提醒."转化率低"不等于"AI没用"。丹麦数据证明个体确实省了时间,只是没人系统性地把它变成营收或涨薪。

这两组数据说的是同一件事的两个层面:个体层面效率提升是真的,组织层面把效率变成利润的机制却几乎不存在。省下的时间不会自己找到出口,它需要有人主动把它接到计费、产能或成本这几根线上——多接一单、缩短交付周期、砍掉一项外包,否则它就悄悄流回一天里别的事情。

丹麦这份数据也有边界。丹麦的强工会和弹性保障(flexicurity)制度,可能让雇主没有动力把效率提升迅速转嫁成降薪或裁员,这也是为什么工时省了、收入却没跌。换成工会力量更弱、雇佣关系更灵活的市场,这套结论能不能直接套用,目前还看不清。

对按项目或时薪计费的自由职业者来说,这道题相对具体:AI省下的每一小时,如果没有变成多接的一单或提前的交付,它就只是白白省下的时间,而不是多赚的钱。对管理者来说,"部署了AI"从来不等于"人效自动提升",没有配套的产出定价或绩效机制,大概率会重复NANDA报告里那95%的结局。