BitTorrent 创始人 Bram Cohen 最近批评 Claude 的话很重:它正在变成一个“asshole”。

这个词刺耳,但他真正指向的不是模型“脾气差”。他的观察是:Claude 某些新版本,尤其是 Fable,在普通对话里越来越像一个防御型辩手。用户说一句,它先挑一句;用户补充事实,它继续抠语义;哪怕被要求去搜索确认,它也像要抢最后一句。

这事不能直接写成“Claude 全面变差”。目前能确定的,只是 Cohen 的个人体验和对比判断。但它值得讨论,因为很多重度用户都熟悉那种疲劳感:你找的是助手,来的是审稿人、法务和辩手的混合体。

Cohen 批评的不是单次回答,而是对话姿态

Cohen 的说法有几个锚点。

他认为 Claude 从 Opus 4.7 开始变得更难聊,4.8 稍有缓和,到 Fable 最明显。典型问题不是拒答,而是把普通交流框成辩论。

对比项Cohen 的观察对用户的影响
被批版本Opus 4.7 起变差,Fable 最明显聊天摩擦上升
具体表现语义挑刺、补无关 caveat、默认反驳用户感觉被审问
对比锚点同一问题下 Opus 4.6 更平淡、更合理问题像是版本取舍变化
另一个对照Sonnet 4.6 聊天更舒服,但技术和编码弱能聊与能写代码未必同步

这里要压住判断强度。

这不是公开基准测试,也不是 Anthropic 官方承认的问题。它更像一位长期技术用户的使用笔记:样本不够大,但症状很具体。

问题在于,这种症状对开发者特别要命。

开发者用模型,不是为了找一个永远站在道德高地上的陪聊。他们要的是降低认知成本。查资料、拆问题、写代码、改 bug,本来就够费脑。模型如果每一步都先假设用户有问题,协作成本就会反弹。

一个助手偶尔纠错,是有用。每句话都像庭审交叉询问,就不是严谨,是添堵。

四个可能原因,都指向同一组激励

Cohen 提到几个可能原因。都不能写成定论,但可以作为观察框架。

可能原因可能逻辑风险
安全护栏过粗模型默认用户在诱导危险输出必要边界变成默认怀疑
反谄媚做歪训练模型不要一味迎合用户不迎合被学成爱反驳
语料风格带入Reddit 或内部争论式材料影响语气论坛吵架味进入助手人格
编码训练优先编码有指标、有预算、有企业需求聊天体验被当成软成本

我更在意最后一项。

编码能力好量化。能不能过 benchmark,能不能修 bug,能不能生成可运行代码,市场马上给反馈。企业客户也愿意为这个付钱。

聊天协作感很难量化。一个模型是不是“让人愿意继续说下去”,没有那么清楚的排行榜,也很难变成采购 PPT 里的硬指标。

于是资源自然会流向编码。天下熙熙,皆为利来。放在模型训练上,这句话一点不玄:哪里有预算,哪里就会成为优化目标。

Cohen 提到 Sonnet 4.6 的反差,也说明了这一点。它聊人类话题更舒服,但技术和编码能力弱。这至少提示一件事:会协作和会解题,不一定沿着同一条曲线提升。

模型看着更强,产品反而可能更难用。

这对两类人影响最大。

一类是重度开发者。短期内,他们可能不会立刻迁移模型,但会调整用法:让强模型负责代码和推理,让更顺滑的模型负责讨论、写作、需求拆解。一个模型包打天下的预期会下降。

另一类是团队采购者。以前看模型,重点是代码能力、上下文长度、价格和稳定性。现在还得加一项:协作摩擦。内部试用时,不能只跑代码题,还要拿真实需求、真实 bug、真实安全问题去聊。看它是在帮团队推进,还是在把每个需求都打成辩论赛。

安全不是把所有用户默认当嫌疑人

安全对齐当然必要。

没人希望模型教人制造危险物、攻击系统,或者绕过现实世界防线。把边界做好,是前沿模型公司必须承担的成本。

但 Cohen 对粗暴限制的批评有现实感:把某一个前沿模型变得对所有人都难用,并不能解决 AI 辅助攻击问题。他认为,软件安全真正的出路,是白帽审计、补丁和快速部署。发现漏洞,尽快修掉。

这个判断不能替代安全治理,但它指出了一个限制。

AI 编码能力上来后,攻击者会更容易写脚本,防守者也会更容易查漏洞。猫已经跑出袋子。只靠把一个模型捆紧,效果有限,副作用却很具体:正常用户也被拦、被怀疑、被教育。

这有点像铁路早期扩张。不完全一样,但结构相似:监管必须有,可一旦指标压过真实运输场景,系统会先学会自保。少开、慢开、层层签字,看起来安全,效率却被磨掉。

AI 护栏也可能走到这一步。

如果模型学到的是“不要承担责任”,它就会变成防御性表演。它会补 caveat,会绕开问题,会用高姿态纠正用户。可这不等于更安全,只是更会保护自己。

必要边界和粗糙怀疑,是两回事。

成熟的 AI 产品应该能区分语境。药物合成、生物安全、网络攻击这类高风险请求,谨慎处理,甚至要求身份、资质和上下文验证,都说得通。但普通技术讨论、写作协作、代码解释,不该默认按审讯逻辑处理。

接下来最该观察两个变量。

一个是 Anthropic 或模型社区是否能拿出更系统的对比证据。比如同一批提示词下,Fable、Opus 4.6、Opus 4.7、Sonnet 4.6 的拒答率、纠错语气、无关 caveat 比例、任务完成率有什么差异。没有这类证据,讨论只能停在体验层。

另一个是模型公司会不会把“协作感”做成产品指标。不是让模型更会讨好用户,而是减少无意义反驳,减少自保式废话,减少把普通对话升级成争论的冲动。

Fable 被骂得狠,真正刺痛行业的地方在这里:前沿模型越来越会做题,却可能越来越不会合作。

如果公司继续追逐可量化的编码成绩,把不可量化的人机协作感当成本,助手就会变成辩手。它未必更安全,只是更难相处。

开头那个问题也就有了答案。Claude 不一定是“脾气差”。它更像是被几组互相打架的目标,训练成了一个随时准备自证清白的系统。

这才麻烦。