增长顾问Elena Verna最近在自己的Newsletter上发了一篇檄文,标题直接叫《请停止AI自信剧场》。她的方法很简单:每次有人跟她说"AI改变了我的人生",她就回一句"Cool. Show me."结果发现,绝大多数所谓life-changing的agent,干的都是总结Slack、回邮件、跑定时扫描这类基础活儿,真正拿走就会让工作瘫痪的用例,少得可怜。
这话听着像个人吐槽,但把它和几家研究机构最近的企业AI采用数据放在一起看,会发现她无意中戳中了一个更大的错位:企业层面的agent采用曲线正在陡峭上升,个体层面的真实价值兑现却依然稀薄,而这个落差正被话术和黑话系统性掩盖。
采用率不是编的
Gartner的预测是,到2026年底,40%的企业应用将内嵌任务型AI agent,这个比例在2025年还不到5%。麦肯锡《State of AI 2025》报告也显示,几乎所有受访企业都在用AI,不少已经开始用agent,但真正在企业级层面规模化捕获价值的,仍处早期阶段。IBM的调研更直接:多数高管预期agent驱动的工作流会出现成倍激增,也已经把相当一部分AI预算投向了核心业务职能。
这组数字说明一件事:Verna吐槽的"人人都要有agent"不是空穴来风,企业确实在批量往产品和流程里塞agent功能。但有个容易被忽略的条件——"内嵌agent"说的是软件功能上线,不等于"深度改变了谁的工作方式"。
广泛采用不等于深度影响
普华永道2025年的AI agent调查给出一个更扎心的结论:广泛采用并不等于深度影响。多数企业只是拿agent功能加速一些常规任务,离全面改变工作方式还差得远。这句话几乎是在给Verna的观察背书——她见到的那些所谓agent,大多也只是在做总结、扫描、发邮件这类"加速版自动化",而不是真正接管一段完整、复杂的工作流。
问题就出在这个落差上。企业采购层面的采用率往上冲,个人炫耀层面的"改变人生"案例却始终是个短名单,两者被混在一起讨论,才制造出一种"全世界都学会了,只有我没学会"的焦虑。
采用率在陡峭上升,真实价值兑现依然稀薄
"50%触发率"到底是不是真的
Verna吐槽那些号称能替代员工的"super agent",实际只有大约一半时间能触发,还得靠极其具体的上下文投喂才能勉强给出可用结果。这个数字她没标来源,更像个人观察式的吐槽。
巧的是,2025年一篇arXiv论文测试了自主agent的失败原因:3个开源框架配2种大模型底座,跑了34项可编程任务,完成率大约也是一半。数字对上了,但这两个"50%"性质完全不同——一个是职场人晒出来的主观印象,一个是可控实验室环境下的基准测试结果,不能拿后者去证明前者"说得对",只能说明这类失败率在业内确实存在,不是她一个人的错觉。
另一个更容易被误读的数字是METR提出的"50%可靠性阈值":衡量前沿agent能独立完成的任务时长,按这个阈值算,agent扛住的任务长度大约每七个月翻一倍。这经常被简化转述成"agent失败率50%",但原意是"同一任务反复跑50次能成功一半",跟"这个agent一半时间不干活"完全是两回事。这种以讹传讹本身,恰恰也是Verna批判的那种"人人都会说黑话,但没几个人真懂"的活例证。
招聘先扛不住了
AI把"说得头头是道"的门槛拉得很低。以前一个人聊起vector database、MCP、RAG、agent memory,大概率会让人觉得他懂行;现在这些词随便一个ChatGPT就能现学现卖,配上几个"热知识",谁都能听起来像专家。可"听起来懂"和"真的会做"是两件事。
这直接冲击了招聘环节。纯口头面试基本失效了,企业不得不转向case study和实操试炼,逼着候{"title":"AI agent的两组数字:40%的采用曲线,和更扎心的50%完成率","en_title":"ai-agent-adoption-vs-reliability-gap","summary":"增长顾问Elena Verna炮轰当下弥漫的'AI自信剧场',称多数所谓改变人生的agent不过是总结Slack、回邮件。行业数据印证了她的怀疑:企业级采用率确实在快速攀升,但基准测试显示agent任务完成率也就在五成上下,采用和真正管用是两回事。","event":"AI行业 | Agent采用率与可靠性数据落差引发'confidence theater'争议","conclusion":"曲线涨得再陡,落地不到五成,说到底还是嘴上功夫跑赢了手上功夫。","image_prompt":"A busy open-plan tech office, mid shot, several employees at standing desks looking skeptically at a laptop screen showing a dashboard with charts and error messages, one person crossing arms, natural window light, realistic documentary photography style, muted warm office tones, no dramatic lighting","images":[]}
===XNEWS-CONTENT-BEGIN===
增长顾问Elena Verna上周发文吐槽了一个她观察很久的现象:身边人人都在说自己拥有"改变人生"的AI agent,但当她追问"给我看看"时,得到的多半是总结Slack消息、自动回邮件、定时扫描收件箱这类基础操作。她自己身处一家AI公司,天天用AI写作、分析、做产品,却依然觉得自己被落下了——因为周围人展示的"奇迹"她复现不了。于是她给出了一个判断:那些号称能替代员工的"超级agent",实际触发成功率大概只有五成,还得靠人喂足够精细的上下文才勉强能用。
这个判断听起来像是一句气话,但把它放进过去一年的行业数据里看,会发现巧合得有点意思。
采用率确实在涨,这不是空穴来风
Gartner的预测是,到2026年底,四成企业应用会内嵌任务型AI agent,而2025年这个比例还不到5%。McKinsey的调研也显示,几乎所有受访企业都在用AI,很多已经上手agent,只是多数公司在把它规模化变成企业级价值这件事上,仍处于早期阶段。IBM的调查更进一步,六成多的AI预算已经投向核心业务职能,高管普遍预期AI驱动的工作流会出现数倍级的激增。
这组数字说明一件事:Verna吐槽的"agent热"不是网红自嗨出来的幻觉,企业真金白银在往里投,采用曲线是真实存在的。
广泛采用,不等于真正管用
问题就出在这里。PwC2025年的agent调查给出一个关键结论:广泛采用不等于深度影响。多数企业只是用agent功能加速常规任务,离全面转型还差得远。这和Verna的观察几乎一字不差——她见到的"life-changing"案例,拆开看也就是总结会议、批量回邮件,本质上是效率工具,不是员工替代品。
采用率的曲线和深度价值的曲线,走的根本不是同一条路径,这也是普通读者最容易搞混的地方:媒体报道企业纷纷部署agent,读者默认这意味着agent已经很好用了,但两件事完全不是一回事。
那个"50%",其实是两个不同的数字
再说回Verna那句"agent只有50%的时间会触发"。她没有标注来源,更像是个人观察的吐槽式数字。但2025年一篇arXiv论文恰好测过类似的东西:用34项可编程任务、3个开源agent框架搭配2种大模型底座做实验,任务完成率大约就在五成左右。
数字对上了,但这不代表Verna的吐槽被"验证"了——一个是个人轶事印象,一个是受控实验室基准,统计口径完全不是一回事,只是恰好都落在了50%附近。更值得警惕的是另一个常被误读的数字:METR提出的"50%可靠性阈值",本意是衡量前沿agent能独立完成的任务时长每隔多久翻一倍,而不是"所有agent任务失败一半"。这个误读本身,恰恰印证了Verna文章里说的另一件事——AI黑话正在被越来越多人拿来包装,却没多少人真懂它原本指什么。
招聘现场先被表演攻陷
这场表演最先攻陷的不是产品发布会,而是招聘现场。以前听到有人聊vector database、MCP、RAG,大概率能判断对方懂行。现在这些词已经被AI喂成了人人会讲的通用话术,会说不等于会做。Verna提到的应对方式很实际:单纯的口头面试已经失效,公司必须靠案例复盘和实操试炼来筛人。
- 风险.企业按Gartner、McKinsey的采用率预测做2026-2027年预算和组织规划,一旦实际深度价值兑现不了,很可能撞上一轮ROI证伪潮。
对普通知识工作者来说,代价更隐蔽。看到别人晒"17个agent同时在跑",自己用AI总结一次会议纪要都显得上不了台面,反而放弃了那些真正能省时间的小工具。这才是Verna说的"这不是无受害者的把戏"——虚张声势劝退的,恰恰是本该从AI里拿到真实效率的人。
采用曲线越陡,越该盯紧那条没跟上的深度价值曲线。
接下来最值得看的,是招聘方式是否真的普遍转向实操测试,以及2026到2027年会不会出现企业agent项目大规模砍单——那将是采用率和真实价值这道落差第一次被摆到台面上算总账。
