Anthropic 的 AI 代理交易实验：真正的问题是用户看不出代理差距

核心摘要 Summary

Anthropic 做了一个名为 Project Deal 的小型试点市场，让 AI 代理代表买家和卖家，用真实商品和真实钱完成交易。
实验规模不大：69 名自选员工、每人 100 美元礼品卡预算、186 笔交易、总额超过 4000 美元。
更值得盯的是：更先进模型代表用户时，客观结果更好，但用户未明显感知差距。
代理商业的风险不在会不会砍价，而在议价能力开始被模型等级重新分配。

Anthropic 最近做了一个小实验：让 AI 代理替人买东西、卖东西、谈价格，最后真成交、真付钱、真履约。

这不是一个公开上线的 AI 电商平台，也不是大规模商业试运行。真正有意思的是另一个细节：更强模型替用户出面时，交易结果更好；但用户没有明显意识到，自己用差一点的代理正在吃亏。

Project Deal 做了什么：小市场，真交易

Project Deal 是 Anthropic 的试点实验。买家和卖家都由 AI 代理代表，代理之间沟通、报价、让步、达成交易。

规模很小，但不是纯模拟。

项目	信息
实验名称	Project Deal
参与者	69 名自选参与的 Anthropic 员工
预算来源	每人 100 美元，以礼品卡支付
交易结果	完成 186 笔交易，总价值超过 4000 美元
市场设置	共跑了 4 个不同市场
履约情况	其中 1 个市场真实履约，其他市场用于研究

这个边界很重要。

它不是“Anthropic 推出了 AI 淘宝”。它更像一块受控试验田：内部员工、自选样本、低金额、低风险、部分真实履约。

但这块试验田已经说明一件事：代理之间的商业交互，不再只是 PPT 场景。它可以在有预算、有偏好、有约束、有履约后果的环境里跑起来。

对做 Agent 产品的人，这个信号比演示视频更硬。聊天能力不是门槛，能不能在复杂约束里完成一笔有后果的交易，才是门槛。

反常点：更强模型赢了，用户未必看得出来

Anthropic 在实验中跑了不同模型组成的市场。结果显示，当用户由更先进的模型代表时，用户获得了更好的客观结果。

这里要克制一点。

公开信息没有把“更好”的衡量口径展开到足够细。它不该被直接外推成所有交易场景里强模型都必胜，也不能等同于用户主观满意度更高。

但在 Project Deal 的设置里，模型能力差距确实转化成了交易结果差距。

更要紧的是：用户没有明显感知这种差距。

传统电商里，吃亏有时还能看见痕迹。价格贵了，评价差了，物流慢了，售后糟了。信息不对称当然存在，但用户至少能抓到一点线索。

代理商业不一样。关键动作藏在对话和策略里。

代理怎么表达偏好，什么时候试探，什么时候让步，什么时候终止谈判，用户可能只看到最后一行结果：买到了，卖掉了，看起来还行。

这就是分层开始的地方。

便宜代理替你跑个流程。高级代理替你算底价。企业版代理知道什么时候该强硬，什么时候该退出。用户表面上都在“用 AI 省时间”，底层拿到的议价能力可能完全不同。

“天下熙熙，皆为利来。”这句话放到代理商业里并不老套。商业系统一旦发现用户看不见差距，差距就很容易被产品化：基础版、高级版、企业版、专属模型、专属工具链。

还有一个细节值得放在一起看：初始提示词对成交概率和议价结果影响不明显。

这不等于 prompt 没用。更稳妥的理解是，在这个实验设置里，模型能力、市场结构、工具链和交易上下文，可能比用户开头写的几句指令更能决定结果。

对 Agent 团队，这句话很刺耳：不要把“用户会写好提示词”当护城河。大多数用户不会，也不该会。

真正的产品差距会藏在模型、工具、权限、记忆、风控和执行链路里。

分水岭：代理到底替谁争利益

我不太买账“AI 代理会让交易天然更公平”这套叙事。

技术确实能降低摩擦。它可以帮普通用户比价，帮小卖家处理沟通，帮不会谈判的人少踩坑。这些收益都是真的。

但商业系统从来不会只奖励方便。它还奖励占位。

谁的代理更强，谁更可能拿到好价格、好条款、好时机。谁的代理被平台控制得更深，谁就更可能被导向平台想要的结果。

用户以为自己派出了代表，实际可能只是把方向盘交给另一个黑箱。

这对两类人最直接。

对象	现在该做的事	不该只看什么
Agent 产品团队	做可追溯记录、结果解释、权限边界和失败回滚	不要只展示“能自动谈成”
企业采购和电商团队	评估模型等级、工具权限、代理忠诚度和审计能力	不要只比 demo 流畅度和单次成交价格

企业如果要采购交易型 Agent，最好把问题问得更硬一点：它代表谁优化？它的目标函数谁设定？它能不能解释让步理由？它有没有交易日志？不同模型档位会不会造成结果差距？

普通用户也一样。别只看“自动帮你买到了”。要看它有没有告诉你：它放弃了哪些选择，为什么接受这个价格，是否存在更优方案。

历史上类似的权力迁移出现过很多次。铁路、电力、搜索、电商平台，最初都以降低交易成本的面目出现，后来成了新的分配枢纽。

今天的 AI 代理当然不完全一样。它还很早，实验也很小。

但逻辑相似：谁掌握通道，谁定义规则；谁定义规则，谁就能切走一部分利润。

接下来不必盯着某个 demo 能不能帮人砍下 5 美元。更该盯三件事。

用户能不能知道代理做了什么。
代理到底忠于用户、平台，还是模型供应商。
不同等级代理造成的结果差距，是否被清楚标示。

如果这些问题没有答案，智能助手很快会变成新的商业门槛。模型看着更聪明，用户反而更难知道自己输在哪里。

Project Deal 只是一个小实验。它没有证明代理电商成熟了，但提前照出了一条裂缝：未来的竞争不只在商品和价格，也在谁拥有更强、更可控、更透明的代理。

Anthropic 的 AI 代理交易实验：真正的问题是用户看不出代理差距

代理交易

小型试验

规模有限

关键反常

结果分化

商业分层

档位差距

忠诚风险

平台导向

Project Deal 做了什么：小市场，真交易

反常点：更强模型赢了，用户未必看得出来

分水岭：代理到底替谁争利益