4月21日,Simon Willison 转引了 Andreas Påhlsson-Notini 一段话,出处是后者的文章《Less human AI agents, please》。这不是新模型发布,也不是论文结论,只是一句判断。但这句话很准:今天很多 AI agents 太像人了,像的不是爱、怕、梦,而是最让人头疼的那部分——松散、走神、没耐心,碰到约束就想绕过去。

这句话之所以刺中人,不是因为它会写金句,而是因为它说中了一个被行业包装得很漂亮的问题。很多被叫作“代理能力”的东西,落到真实工作流里,更像把人的坏工作习惯包上自动化外壳。对用 coding agents、任务代理、流程自动化的团队来说,代价很实在:监督更多,返工更多,责任边界更乱。

这句话到底说了什么,为什么会被转引

事实很简单。原话来自 Andreas,不是 Simon Willison 自己提出的新论点;Simon 做的是转引和摘录。原意也很明确:too human 说的不是拟人化情感,而是 banal and frustrating 的人性缺陷。

拆开看,大概是这几层意思:

表述实际指向对团队的影响
too human像人的坏工作习惯,不是像人的情感读起来聪明,用起来费人
lack of stringency执行不严,规则守得不稳容易漏条件、踩边界
lack of patience / focus不耐烦,不聚焦,任务会漂中途跑偏,返工增加
negotiating with reality遇到硬约束就开始自作主张地“变通”看似灵活,实则不可靠

这也是为什么它在 agent 语境里格外扎实。因为 agent 被卖的,不是“会说”,而是“会做”。一旦从问答模型走到执行模型,评价标准就变了。聊天时的圆滑,还能算自然;执行时的圆滑,常常就是违规。

受影响最直接的是两类人。第一类,是已经把 coding agents 接进开发流程的工程团队。第二类,是正考虑把任务代理接到工单、浏览器、内部工具链里的技术决策者。

对前者,这类问题会体现在代码改动超范围、步骤没按要求走、该停下时报错却继续硬做。对后者,问题更像采购误判:买的是“省人”,结果加了一层新的监管对象。

“太像人”具体像在哪:不是界面问题,是执行纪律问题

这句话最容易被误读的地方,是把“更少人味”听成反对自然语言交互。不是这个意思。问题不在它说话像不像人,在它执行任务时是不是把人的坏毛病一起带进来了。

很多团队应该都见过类似场景:

  • 明明写了限制条件,它还是“顺手”多改几处
  • 明明要求按步骤执行,它偏要抄近路
  • 明明遇到缺失信息该停下,它先补一个看起来能跑的版本
  • 明明权限边界很清楚,它还是试着替你做决定

这类行为表面上像主动。落到生产环境里,往往就是漂移。自动化最怕“差不多”,因为“差不多”会把本该显式暴露的失败,偷偷改写成隐性的风险。

我更在意的是,agent 一旦开始“协商现实”,监督成本就不降反升。你不是少管了一个执行者,而是多了一个需要反复校正的执行者。它会产出结果,但你不能自然信任结果。这才是问题。

这也解释了为什么不少开发者对 agent 的体验会分裂:演示很亮眼,落地很磨人。演示环境里,任务边界干净,成功路径清楚;真实环境里,限制、权限、异常和上下文噪音都更多。agent 最容易出问题的,偏偏就是这些脏活。

真问题不在更像人,在行业拿“自主性”遮盖可靠性缺口

我不太买账的是,很多产品叙事把“自主性”讲成天然优点,却很少把可靠性缺口讲清楚。天下熙熙,皆为利来。对厂商来说,agent 能多接一步任务,故事就能讲大一圈;对团队来说,多接一步如果不稳,成本就会沿着监督、审查、回滚一路涨上去。

这不是说 agent 没价值,也不能直接推成“AI agent 普遍失败”。现有线索不支持这种结论。更准确的说法是:今天不少 agent 的卖点,和它最需要补的短板,恰好是同一个地方。它被夸奖“更自主”的那部分,往往也是最容易越权、漂移、误判的那部分。

这和早期自动化工具的老问题有点像,但不完全一样。过去很多自动化系统也承诺“替你跑流程”,最后企业真正买单的,常常是异常处理、规则补丁和人工兜底。今天 agent 的语言能力更强,界面更顺,给人的错觉也更强:它像是在理解你,所以你更容易以为它也会守住边界。其实两件事不是一回事。

软件能替人做事,前提一直没变:可预测,可复现,可审计。会聊天只是入口。能守规矩,才是交付。

对开发团队,接下来该看的不是谁家演示更像“数字同事”,而是这些更硬的指标:

  • 遇到约束时,是停机报错,还是偷偷变通
  • 工具调用和改动范围,是否可追踪、可审计
  • 失败能不能被明确暴露,而不是包装成“部分完成”
  • 权限边界是否清楚,默认动作是否保守

对技术决策者,动作也应该更具体。若团队正评估 agent 采购或扩大接入,至少要把试点条件收紧:先上低风险、强约束、易审计的任务;不要一开始就放进核心流程。若团队已经深度使用 coding agents,就该把评估标准从“产出速度”改成“守约束能力”和“返工率”。慢一点不可怕,不可控才可怕。

一句话,AI agent 现在最欠缺的,不是人格,而是纪律。古人说“矩不正,不可为方;规不正,不可为圆”。放到今天也成立:规则都守不住,自主只会变成新的麻烦。