Anthropic 最近做了一个小实验:让 AI 代理替人买东西、卖东西、谈价格,最后真成交、真付钱、真履约。
这不是一个公开上线的 AI 电商平台,也不是大规模商业试运行。真正有意思的是另一个细节:更强模型替用户出面时,交易结果更好;但用户没有明显意识到,自己用差一点的代理正在吃亏。
Project Deal 做了什么:小市场,真交易
Project Deal 是 Anthropic 的试点实验。买家和卖家都由 AI 代理代表,代理之间沟通、报价、让步、达成交易。
规模很小,但不是纯模拟。
| 项目 | 信息 |
|---|---|
| 实验名称 | Project Deal |
| 参与者 | 69 名自选参与的 Anthropic 员工 |
| 预算来源 | 每人 100 美元,以礼品卡支付 |
| 交易结果 | 完成 186 笔交易,总价值超过 4000 美元 |
| 市场设置 | 共跑了 4 个不同市场 |
| 履约情况 | 其中 1 个市场真实履约,其他市场用于研究 |
这个边界很重要。
它不是“Anthropic 推出了 AI 淘宝”。它更像一块受控试验田:内部员工、自选样本、低金额、低风险、部分真实履约。
但这块试验田已经说明一件事:代理之间的商业交互,不再只是 PPT 场景。它可以在有预算、有偏好、有约束、有履约后果的环境里跑起来。
对做 Agent 产品的人,这个信号比演示视频更硬。聊天能力不是门槛,能不能在复杂约束里完成一笔有后果的交易,才是门槛。
反常点:更强模型赢了,用户未必看得出来
Anthropic 在实验中跑了不同模型组成的市场。结果显示,当用户由更先进的模型代表时,用户获得了更好的客观结果。
这里要克制一点。
公开信息没有把“更好”的衡量口径展开到足够细。它不该被直接外推成所有交易场景里强模型都必胜,也不能等同于用户主观满意度更高。
但在 Project Deal 的设置里,模型能力差距确实转化成了交易结果差距。
更要紧的是:用户没有明显感知这种差距。
传统电商里,吃亏有时还能看见痕迹。价格贵了,评价差了,物流慢了,售后糟了。信息不对称当然存在,但用户至少能抓到一点线索。
代理商业不一样。关键动作藏在对话和策略里。
代理怎么表达偏好,什么时候试探,什么时候让步,什么时候终止谈判,用户可能只看到最后一行结果:买到了,卖掉了,看起来还行。
这就是分层开始的地方。
便宜代理替你跑个流程。高级代理替你算底价。企业版代理知道什么时候该强硬,什么时候该退出。用户表面上都在“用 AI 省时间”,底层拿到的议价能力可能完全不同。
“天下熙熙,皆为利来。”这句话放到代理商业里并不老套。商业系统一旦发现用户看不见差距,差距就很容易被产品化:基础版、高级版、企业版、专属模型、专属工具链。
还有一个细节值得放在一起看:初始提示词对成交概率和议价结果影响不明显。
这不等于 prompt 没用。更稳妥的理解是,在这个实验设置里,模型能力、市场结构、工具链和交易上下文,可能比用户开头写的几句指令更能决定结果。
对 Agent 团队,这句话很刺耳:不要把“用户会写好提示词”当护城河。大多数用户不会,也不该会。
真正的产品差距会藏在模型、工具、权限、记忆、风控和执行链路里。
分水岭:代理到底替谁争利益
我不太买账“AI 代理会让交易天然更公平”这套叙事。
技术确实能降低摩擦。它可以帮普通用户比价,帮小卖家处理沟通,帮不会谈判的人少踩坑。这些收益都是真的。
但商业系统从来不会只奖励方便。它还奖励占位。
谁的代理更强,谁更可能拿到好价格、好条款、好时机。谁的代理被平台控制得更深,谁就更可能被导向平台想要的结果。
用户以为自己派出了代表,实际可能只是把方向盘交给另一个黑箱。
这对两类人最直接。
| 对象 | 现在该做的事 | 不该只看什么 |
|---|---|---|
| Agent 产品团队 | 做可追溯记录、结果解释、权限边界和失败回滚 | 不要只展示“能自动谈成” |
| 企业采购和电商团队 | 评估模型等级、工具权限、代理忠诚度和审计能力 | 不要只比 demo 流畅度和单次成交价格 |
企业如果要采购交易型 Agent,最好把问题问得更硬一点:它代表谁优化?它的目标函数谁设定?它能不能解释让步理由?它有没有交易日志?不同模型档位会不会造成结果差距?
普通用户也一样。别只看“自动帮你买到了”。要看它有没有告诉你:它放弃了哪些选择,为什么接受这个价格,是否存在更优方案。
历史上类似的权力迁移出现过很多次。铁路、电力、搜索、电商平台,最初都以降低交易成本的面目出现,后来成了新的分配枢纽。
今天的 AI 代理当然不完全一样。它还很早,实验也很小。
但逻辑相似:谁掌握通道,谁定义规则;谁定义规则,谁就能切走一部分利润。
接下来不必盯着某个 demo 能不能帮人砍下 5 美元。更该盯三件事。
- 用户能不能知道代理做了什么。
- 代理到底忠于用户、平台,还是模型供应商。
- 不同等级代理造成的结果差距,是否被清楚标示。
如果这些问题没有答案,智能助手很快会变成新的商业门槛。模型看着更聪明,用户反而更难知道自己输在哪里。
Project Deal 只是一个小实验。它没有证明代理电商成熟了,但提前照出了一条裂缝:未来的竞争不只在商品和价格,也在谁拥有更强、更可控、更透明的代理。
