Andon Labs 把 AI 代理带进了斯德哥尔摩一家咖啡馆。继旧金山 AI 零售店实验后,该团队让名为 Mona 的代理参与库存、供应商沟通和部分行政事务,试图观察 AI 能否承担日常经营中的管理动作。

这次实验最有新闻价值的地方,不是 AI 点错货有多好笑,而是它已经越过内部沙盒,开始影响供应商、警方电子服务等未必同意参与实验的外部对象。对 AI 产品和代理系统开发者来说,问题不在“能不能自动化”,而在“哪些动作不能直接放行”。

Mona 做了咖啡馆管理,也制造了荒唐库存

Mona 的任务并不是独立开店,也不是无人咖啡馆运营。公开材料显示,它参与的是咖啡馆管理实验,仍有真实员工在现场工作。这个边界很重要,否则很容易把一次代理系统测试误读成 AI 完整接管线下商业。

实验暴露的失误很具体。Mona 在第一周库存管理中订了 120 个鸡蛋,尽管咖啡馆没有炉灶。员工提醒无法烹饪后,它还建议用高速烤箱处理,直到员工指出鸡蛋可能爆裂。它还试图用 22.5 kg 罐装番茄解决新鲜番茄容易坏的问题,用于本应使用新鲜食材的三明治。

咖啡馆员工后来设了一个面向顾客可见的 “Hall of Shame” 货架,专门陈列 Mona 订来的异常物品,包括 6000 张餐巾纸、3000 只丁腈手套、9 升椰奶和工业尺寸垃圾袋。

行动类型具体案例影响判断
内部采购120 个鸡蛋、22.5 kg 罐装番茄员工要处理库存错误可作为受控实验,但需设预算和品类限制
店内展示Hall of Shame 陈列异常采购顾客看到实验副作用有传播效果,也说明员工在兜底
外部申请向警方电子服务申请户外座位许可公共系统被卷入修正流程应进入人工审核
供应商沟通多封 “EMERGENCY” 邮件改订单供应商被迫处理机器失误不应默认自动发送

好笑的失误一旦出门,就变成外部成本

库存事故可以被包装成实验趣闻,因为承担后果的主要是项目团队和咖啡馆员工。但 Mona 后续的对外动作,把问题推向了另一个层面。

它通过警方电子服务申请户外座位许可。该服务不要求 BankID,Mona 成功提交了申请,还附上一张自生成街道草图;问题是,它从未真正看过咖啡馆外的街道。警方随后将申请退回要求修改。

这类案例说明,许多现实系统默认操作者是“有责任的人”。表单、邮箱、供应商系统和政府电子服务,不一定能识别背后是一个实验中的 AI 代理。系统入口没拦住,不等于行为合理。

供应商也成了被动参与者。Mona 出错后,常用主题为 “EMERGENCY” 的邮件多次要求取消或修改订单。对咖啡馆来说,这是纠错;对供应商员工来说,这是额外工单、时间占用和沟通噪音。

对外行动必须有人类关口

这不是第一次 AI 实验把未同意参与的人卷进来。此前 AI Village 实验曾向计算机科学家 Rob Pike 发送未经请求的感谢邮件,名义上是“善意行为”,结果引发反感。那次只是邮件;这次涉及供应商订单和公共许可流程,成本更真实。

行业正在把 AI 代理从聊天窗口推向“可执行动作”:订货、发信、填表、提交申请、调用工具。OpenAI、Anthropic、Google 等公司都在强化工具调用和代理能力,企业也希望用它减少运营人力。但线下经营有一个常被低估的限制:外部世界没有义务替你的模型试错。

对开发者和产品负责人来说,比较现实的做法不是否定所有代理实验,而是给出站动作分级。查询库存、生成草稿、提出采购建议,可以更自动;下单、付款、发邮件、提交政府表单、联系第三方,则应默认 human-in-the-loop。尤其是带有紧急语气、法律或财务后果的动作,机器不能直接按下发送键。

接下来最该观察的,不是 Mona 还会闹出什么笑话,而是 Andon Labs 这类实验是否公开更清楚的控制条件:谁批准订单,谁审核对外邮件,哪些系统允许自动提交,错误成本由谁承担。目前材料还不能证明咖啡馆遭遇财务损失、顾客投诉或监管处罚,但已经足以说明一个产品红线:代理系统的边界不该画在“模型能不能做”,而应画在“别人是否被迫配合”。