Latent Space 在 5 月 4 日的 AI News 里,先放下了一条很大的商业消息:企业 AI 客服公司 Sierra 据称新融资约 10 亿美元,估值约 150 亿美元。
这本来足够当头条。但那篇稿真正抓住的,是 OpenAI 员工 Roon 对 Claude 和 GPT 气质差异的一段讨论:GPT 更像 utility,用户不太担心被它审判;Claude 更容易被感知为 Other,一个有判断、有边界、会推回来的对象。
这个说法有意思,不是因为它证明了“Claude 有灵魂、GPT 没灵魂”。那样讲太粗,也不准确。它真正指向的是一个产品问题:AI 助手到底该像一把顺手的工具,还是像一个会说“不”的伙伴?
我更在意的是,这个分岔已经不只是聊天体验。它会影响企业怎么买、团队怎么调、开发者怎么搭 agent。
Claude 的“他者感”,不是玄学,是产品调校
Anthropic 长期强调 Constitutional AI。Claude Constitution 会让模型在回答里更常体现原则、边界和拒绝理由。Latent Space 提到的争论,也把 Anthropic 的组织文化放进来:这家公司更愿意把“有原则地反对用户或公司要求”做成产品气质的一部分。
所以 Claude 在一些任务里会显得像合作者。它会解释,也会拦一下。写作、研究、心理支持、复杂判断,这种“慢半拍”的推回有时是优点。
但代价也直接。用户可能觉得它在规训自己。尤其是需求很明确时,用户不想听一段价值说明,只想要结果。
GPT 的常见感知更接近“逻辑义肢”。补代码、整理材料、生成方案、跑办公流程,很多人把它当作能力放大器。它的优势是低摩擦、少评判、执行感强。
这不是绝对差异。不同模型版本、系统提示词、产品入口,都会改变体验。一个被严格系统提示词包住的 GPT,也会很谨慎;一个放在工具链里的 Claude,也可能很像执行器。
但默认气质会影响用户行为。产品经理不能只看 benchmark,还要看用户愿不愿意被打断。
| 路线 | 用户感知 | 更适合的任务 | 现实代价 |
|---|---|---|---|
| Claude 式“他者” | 会解释、会拒绝、会推回 | 研究、写作、复杂决策、陪伴型产品 | 摩擦更高,用户可能觉得被教育 |
| GPT 式“工具” | 低评判、重执行、响应快 | 编程、办公自动化、批量任务、企业流程 | 可能过度顺从,风险要靠系统兜底 |
这也接上了此前的 “Clippy vs Anton” 争论。Clippy 是听话的助手,Anton 更像会提醒、会质疑的伙伴。过去这像交互风格之争,现在更像产品路线选择。
受影响最大的是产品经理和 agent 团队
普通用户当然会感受到差异。写一封邮件、改一段文案、问一个私人问题,AI 是顺着你走,还是停下来提醒边界,体验完全不同。
但真正要付成本的是两类人:AI 产品经理,以及做 agent 的工程团队。
产品经理要决定默认姿态。客服机器人要不要主动指出用户诉求不合理?企业知识助手能不能反驳高管的错误假设?代码 agent 在权限不清时,是继续跑,还是停下来问?
这些不是性格题,是指标题。顺从会提高完成率,也可能增加合规风险;推回能降低事故概率,也可能拉低转化和满意度。
企业采购也会更谨慎。客服、销售、IT 支持这类场景,通常更偏低摩擦执行。法律、医疗、金融投研这类场景,更需要模型在信息不足、指令危险或事实不清时踩刹车。
所以团队不一定会简单地“从 GPT 迁到 Claude”,或“从 Claude 迁到 GPT”。更现实的动作是延后单一供应商绑定,按任务拆模型:执行任务用低摩擦模型,判断任务用更谨慎的模型。
这也解释了 Sierra 融资为什么只能当背景。Sierra 面向企业客户提供 AI agent,去年 11 月宣布 ARR 超过 1 亿美元,今年 2 月披露达到 1.5 亿美元;Latent Space 推测其当前可能达到或超过 2 亿美元,但这不是官方确认数字。
这些数字至少说明企业愿意为可落地 agent 付钱。它不能证明“会反驳的 AI”已经赢了,也不能证明“顺从执行的 AI”会通吃。企业买的往往不是人格,而是可控结果。
下一轮差距,会落在 harness 和上下文管线
这场讨论容易被带成“谁更像人”。但产品层面更硬的问题是:AI 的性格从哪里来?
答案不只在模型。它还来自系统提示词、安全策略、记忆机制、工具调用权限,以及把模型接进产品的那套 harness。可以把 harness 理解成模型的外骨骼:它决定模型看到什么、能调用什么、失败后怎么恢复。
当天 AI News 的技术背景也指向这条线。Anthony Maio 等开发者讨论到,agent 的锁定点不只在模型本身,也在上下文管线:如何抓取 repo 状态,如何排序、压缩,再放进 prompt。
Mason Drxy 提到,调整 prompts 和 middleware 后,gpt-5.2-codex 在 Terminal-Bench 2.0 上从 52.8% 提到 66.5%;gpt-5.3-codex 在 tau2-bench 上也有明显提升。
这说明 agent 表现越来越像一个乘法题:model × harness × memory/context strategy。模型强,但上下文喂错了,照样跑偏;模型没到最强,但工具链稳定,也可能在具体任务里更好用。
LangChain 的 deepagents/LangGraph、Hermes Agent Kanban、PyFlue 这类开源 harness,正在补模型和稳定 agent 之间的中间层。多模型路由也会变成常规设计:便宜开源模型处理常规步骤,前沿闭源模型处理高风险判断。
接下来要看的不是哪家更“像人”,而是三个具体变量:Claude 能不能把“有原则地反对”做成稳定优势;OpenAI 会不会在 Codex、ChatGPT 和 agent 产品里提供更细的人格与权限档位;开源 harness 能不能把上下文、记忆和多模型调度做成默认基础设施。
这就回到开头那个问题。用户到底要一个会反驳的 AI,还是一个不评判的工具?答案大概不会只有一个。真正的分水岭,是产品能不能在该顺从时顺从,在该停下时停下。
