Claude 像会反驳的人，GPT 像逻辑义肢：AI 助手开始分两条路

核心摘要 Summary

Latent Space 借 Roon 对 Claude 与 GPT 的讨论，把问题拉回产品选择：用户要的是会推回来的 AI 伙伴，还是低摩擦的执行工具。
Claude 更容易被感知为有边界的“他者”，GPT 更常被当作能力放大器，但这不是人格高低之分。
对产品经理和 agent 团队来说，下一轮竞争不只在模型，也在 harness、上下文管线和多模型编排。

Latent Space 在 5 月 4 日的 AI News 里，先放下了一条很大的商业消息：企业 AI 客服公司 Sierra 据称新融资约 10 亿美元，估值约 150 亿美元。

这本来足够当头条。但那篇稿真正抓住的，是 OpenAI 员工 Roon 对 Claude 和 GPT 气质差异的一段讨论：GPT 更像 utility，用户不太担心被它审判；Claude 更容易被感知为 Other，一个有判断、有边界、会推回来的对象。

这个说法有意思，不是因为它证明了“Claude 有灵魂、GPT 没灵魂”。那样讲太粗，也不准确。它真正指向的是一个产品问题：AI 助手到底该像一把顺手的工具，还是像一个会说“不”的伙伴？

我更在意的是，这个分岔已经不只是聊天体验。它会影响企业怎么买、团队怎么调、开发者怎么搭 agent。

Claude 的“他者感”，不是玄学，是产品调校

Anthropic 长期强调 Constitutional AI。Claude Constitution 会让模型在回答里更常体现原则、边界和拒绝理由。Latent Space 提到的争论，也把 Anthropic 的组织文化放进来：这家公司更愿意把“有原则地反对用户或公司要求”做成产品气质的一部分。

所以 Claude 在一些任务里会显得像合作者。它会解释，也会拦一下。写作、研究、心理支持、复杂判断，这种“慢半拍”的推回有时是优点。

但代价也直接。用户可能觉得它在规训自己。尤其是需求很明确时，用户不想听一段价值说明，只想要结果。

GPT 的常见感知更接近“逻辑义肢”。补代码、整理材料、生成方案、跑办公流程，很多人把它当作能力放大器。它的优势是低摩擦、少评判、执行感强。

这不是绝对差异。不同模型版本、系统提示词、产品入口，都会改变体验。一个被严格系统提示词包住的 GPT，也会很谨慎；一个放在工具链里的 Claude，也可能很像执行器。

但默认气质会影响用户行为。产品经理不能只看 benchmark，还要看用户愿不愿意被打断。

路线	用户感知	更适合的任务	现实代价
Claude 式“他者”	会解释、会拒绝、会推回	研究、写作、复杂决策、陪伴型产品	摩擦更高，用户可能觉得被教育
GPT 式“工具”	低评判、重执行、响应快	编程、办公自动化、批量任务、企业流程	可能过度顺从，风险要靠系统兜底

这也接上了此前的 “Clippy vs Anton” 争论。Clippy 是听话的助手，Anton 更像会提醒、会质疑的伙伴。过去这像交互风格之争，现在更像产品路线选择。

受影响最大的是产品经理和 agent 团队

普通用户当然会感受到差异。写一封邮件、改一段文案、问一个私人问题，AI 是顺着你走，还是停下来提醒边界，体验完全不同。

但真正要付成本的是两类人：AI 产品经理，以及做 agent 的工程团队。

产品经理要决定默认姿态。客服机器人要不要主动指出用户诉求不合理？企业知识助手能不能反驳高管的错误假设？代码 agent 在权限不清时，是继续跑，还是停下来问？

这些不是性格题，是指标题。顺从会提高完成率，也可能增加合规风险；推回能降低事故概率，也可能拉低转化和满意度。

企业采购也会更谨慎。客服、销售、IT 支持这类场景，通常更偏低摩擦执行。法律、医疗、金融投研这类场景，更需要模型在信息不足、指令危险或事实不清时踩刹车。

所以团队不一定会简单地“从 GPT 迁到 Claude”，或“从 Claude 迁到 GPT”。更现实的动作是延后单一供应商绑定，按任务拆模型：执行任务用低摩擦模型，判断任务用更谨慎的模型。

这也解释了 Sierra 融资为什么只能当背景。Sierra 面向企业客户提供 AI agent，去年 11 月宣布 ARR 超过 1 亿美元，今年 2 月披露达到 1.5 亿美元；Latent Space 推测其当前可能达到或超过 2 亿美元，但这不是官方确认数字。

这些数字至少说明企业愿意为可落地 agent 付钱。它不能证明“会反驳的 AI”已经赢了，也不能证明“顺从执行的 AI”会通吃。企业买的往往不是人格，而是可控结果。

下一轮差距，会落在 harness 和上下文管线

这场讨论容易被带成“谁更像人”。但产品层面更硬的问题是：AI 的性格从哪里来？

答案不只在模型。它还来自系统提示词、安全策略、记忆机制、工具调用权限，以及把模型接进产品的那套 harness。可以把 harness 理解成模型的外骨骼：它决定模型看到什么、能调用什么、失败后怎么恢复。

当天 AI News 的技术背景也指向这条线。Anthony Maio 等开发者讨论到，agent 的锁定点不只在模型本身，也在上下文管线：如何抓取 repo 状态，如何排序、压缩，再放进 prompt。

Mason Drxy 提到，调整 prompts 和 middleware 后，gpt-5.2-codex 在 Terminal-Bench 2.0 上从 52.8% 提到 66.5%；gpt-5.3-codex 在 tau2-bench 上也有明显提升。

这说明 agent 表现越来越像一个乘法题：model × harness × memory/context strategy。模型强，但上下文喂错了，照样跑偏；模型没到最强，但工具链稳定，也可能在具体任务里更好用。

LangChain 的 deepagents/LangGraph、Hermes Agent Kanban、PyFlue 这类开源 harness，正在补模型和稳定 agent 之间的中间层。多模型路由也会变成常规设计：便宜开源模型处理常规步骤，前沿闭源模型处理高风险判断。

接下来要看的不是哪家更“像人”，而是三个具体变量：Claude 能不能把“有原则地反对”做成稳定优势；OpenAI 会不会在 Codex、ChatGPT 和 agent 产品里提供更细的人格与权限档位；开源 harness 能不能把上下文、记忆和多模型调度做成默认基础设施。

这就回到开头那个问题。用户到底要一个会反驳的 AI，还是一个不评判的工具？答案大概不会只有一个。真正的分水岭，是产品能不能在该顺从时顺从，在该停下时停下。

Claude 像会反驳的人，GPT 像逻辑义肢：AI 助手开始分两条路

助手分岔

两种气质

Claude式

GPT式

产品取舍

顺从优先

推回优先

企业选择

执行场景

判断场景

Agent差距

上下文管线

多模型编排

Claude 的“他者感”，不是玄学，是产品调校

受影响最大的是产品经理和 agent 团队

下一轮差距，会落在 harness 和上下文管线