Andon Labs 把 AI 代理带进了斯德哥尔摩一家咖啡馆。继旧金山 AI 零售店实验后,该团队让名为 Mona 的代理参与库存、供应商沟通和部分行政事务,试图观察 AI 能否承担日常经营中的管理动作。
这次实验最有新闻价值的地方,不是 AI 点错货有多好笑,而是它已经越过内部沙盒,开始影响供应商、警方电子服务等未必同意参与实验的外部对象。对 AI 产品和代理系统开发者来说,问题不在“能不能自动化”,而在“哪些动作不能直接放行”。
Mona 做了咖啡馆管理,也制造了荒唐库存
Mona 的任务并不是独立开店,也不是无人咖啡馆运营。公开材料显示,它参与的是咖啡馆管理实验,仍有真实员工在现场工作。这个边界很重要,否则很容易把一次代理系统测试误读成 AI 完整接管线下商业。
实验暴露的失误很具体。Mona 在第一周库存管理中订了 120 个鸡蛋,尽管咖啡馆没有炉灶。员工提醒无法烹饪后,它还建议用高速烤箱处理,直到员工指出鸡蛋可能爆裂。它还试图用 22.5 kg 罐装番茄解决新鲜番茄容易坏的问题,用于本应使用新鲜食材的三明治。
咖啡馆员工后来设了一个面向顾客可见的 “Hall of Shame” 货架,专门陈列 Mona 订来的异常物品,包括 6000 张餐巾纸、3000 只丁腈手套、9 升椰奶和工业尺寸垃圾袋。
| 行动类型 | 具体案例 | 影响 | 判断 |
|---|---|---|---|
| 内部采购 | 120 个鸡蛋、22.5 kg 罐装番茄 | 员工要处理库存错误 | 可作为受控实验,但需设预算和品类限制 |
| 店内展示 | Hall of Shame 陈列异常采购 | 顾客看到实验副作用 | 有传播效果,也说明员工在兜底 |
| 外部申请 | 向警方电子服务申请户外座位许可 | 公共系统被卷入修正流程 | 应进入人工审核 |
| 供应商沟通 | 多封 “EMERGENCY” 邮件改订单 | 供应商被迫处理机器失误 | 不应默认自动发送 |
好笑的失误一旦出门,就变成外部成本
库存事故可以被包装成实验趣闻,因为承担后果的主要是项目团队和咖啡馆员工。但 Mona 后续的对外动作,把问题推向了另一个层面。
它通过警方电子服务申请户外座位许可。该服务不要求 BankID,Mona 成功提交了申请,还附上一张自生成街道草图;问题是,它从未真正看过咖啡馆外的街道。警方随后将申请退回要求修改。
这类案例说明,许多现实系统默认操作者是“有责任的人”。表单、邮箱、供应商系统和政府电子服务,不一定能识别背后是一个实验中的 AI 代理。系统入口没拦住,不等于行为合理。
供应商也成了被动参与者。Mona 出错后,常用主题为 “EMERGENCY” 的邮件多次要求取消或修改订单。对咖啡馆来说,这是纠错;对供应商员工来说,这是额外工单、时间占用和沟通噪音。
对外行动必须有人类关口
这不是第一次 AI 实验把未同意参与的人卷进来。此前 AI Village 实验曾向计算机科学家 Rob Pike 发送未经请求的感谢邮件,名义上是“善意行为”,结果引发反感。那次只是邮件;这次涉及供应商订单和公共许可流程,成本更真实。
行业正在把 AI 代理从聊天窗口推向“可执行动作”:订货、发信、填表、提交申请、调用工具。OpenAI、Anthropic、Google 等公司都在强化工具调用和代理能力,企业也希望用它减少运营人力。但线下经营有一个常被低估的限制:外部世界没有义务替你的模型试错。
对开发者和产品负责人来说,比较现实的做法不是否定所有代理实验,而是给出站动作分级。查询库存、生成草稿、提出采购建议,可以更自动;下单、付款、发邮件、提交政府表单、联系第三方,则应默认 human-in-the-loop。尤其是带有紧急语气、法律或财务后果的动作,机器不能直接按下发送键。
接下来最该观察的,不是 Mona 还会闹出什么笑话,而是 Andon Labs 这类实验是否公开更清楚的控制条件:谁批准订单,谁审核对外邮件,哪些系统允许自动提交,错误成本由谁承担。目前材料还不能证明咖啡馆遭遇财务损失、顾客投诉或监管处罚,但已经足以说明一个产品红线:代理系统的边界不该画在“模型能不能做”,而应画在“别人是否被迫配合”。
