Anthropic这次认得很直接:最近一个月,Claude Code 的确出现了“更差”的情况。用户说它变笨、健忘、重复、工具乱调、额度掉得快,不是错觉。
但边界也要说清。Anthropic明确表示,问题不在底层模型训练,也不在 API 推理层。受影响的主要是 Claude Code、Claude Agent SDK 和 Claude Cowork 这些产品层封装,到 4 月 20 日前后,相关问题都已回滚或修复。
这件事的关键,不是“模型有没有被偷偷阉割”。目前看,证据不支持这个说法。更关键的是另一层:模型没换,用户却真觉得它没以前能干了。AI 产品的能力感知,很多时候不是榜单分数决定的,而是默认参数、上下文管理、系统提示词这些外层旋钮决定的。失之毫厘,差的就是整段工作流。
三次改动,具体影响了谁
Anthropic给出的时间线很清楚:
| 改动 | 时间 | 影响范围 | 主要症状 | 处理时间 |
|---|---|---|---|---|
| 默认 reasoning effort 从 high 调到 medium | 3月4日 | Claude Code 中的 Sonnet 4.6、Opus 4.6 | 看起来没那么聪明,但延迟更低、耗额更少 | 4月7日回滚 |
| 闲置会话清理 bug 误删推理历史 | 3月26日 | Claude Code 中的 Sonnet 4.6、Opus 4.6 | 健忘、重复、工具调用异常、usage limits 消耗异常 | 4月10日修复 |
| 系统提示词限制冗长度 | 4月16日 | Sonnet 4.6、Opus 4.6、Opus 4.7 | 编码质量下降,输出被压得过短 | 4月20日回滚 |
三件事单看,都像常见产品调优。叠在一起,用户看到的就是另一回事:回答不稳定,长会话容易断,多步任务更容易跑偏,甚至连额度消耗都变得不正常。
Anthropic还补了一条很重要的信息:最初它们的内部 eval 没复现,内部使用也没及时发现。后来做更大范围的 ablation,才在一项更宽的 coding eval 里看到约 3% 的下降。
这个数字不能被夸大。它不等于所有场景全面崩坏,也不等于底模整体退化。但它足够说明一件事:原来的评测,没有覆盖到重度开发者最在意的真实用法。
受影响最深的,其实不是随手问两句的人,而是把 Claude Code 当生产工具的人。比如要改复杂仓库、跑多步工具链、接长会话、断点续做的开发者。对这类用户,哪怕底模没变,只要“思考力度”被调低、推理历史被删、输出再被硬压短,工作流就会先塌。
Anthropic给所有订阅用户重置 usage limits,也说明它承认这不是一句“已修复”就能带过的事。
这不是单点事故,是产品治理和评测一起失真
我更在意的,不是这三次改动本身,而是它们为什么能连续发生,还连续穿过内部测试。
账其实不难算。下调默认 effort,是在换延迟和成本。清理闲置会话,是在省资源。压缩输出,是在控冗长、控 token、控表面体验。每一项都能讲出理由。
问题在于,三笔账都朝同一个方向扣:让系统更省、更快、更顺眼。最后被吃掉的,是用户对“它真能做完这件事”的信心。
这就是今天很多 AI 产品的典型问题。底模发布时拼命讲上限,落到产品层却不断拧默认值、限输出、管上下文、抠成本。用户最后感受到的,不是实验室里的最好成绩,而是默认设置下那套被裁过一轮的版本。
古话说“天下熙熙,皆为利来”。放在这里不复杂:算力贵,响应慢,配额紧,平台一定会动这些旋钮。问题不在于它动不动,而在于谁来为副作用买单。答案通常很现实:重度用户先买单。
Anthropic这次的复盘还暴露出另一个更麻烦的点:内部 dogfooding、代码审查、自动化测试、端到端测试,都没把问题提前拦住。说明症结不只是一个 bug,也不只是一次 prompt 写坏了。
更像是评测环境和真实公网使用之间有缝。内部任务更短、更干净、更可控;真实开发现场则是长会话、脏上下文、多工具调用、仓库历史复杂、失败成本更高。这两边一旦脱节,离线指标再漂亮,线上体验还是会“味道不对”。这不是新病。搜索、推荐、广告系统都犯过。今天轮到 AI 编程工具而已。
对开发团队来说,现在该怎么判断
如果你是 Claude Code 的重度用户,现在最实用的判断只有几个。
第一,不要把这件事理解成“底模突然退化”。按目前公开信息,这更像产品封装层出了连续事故。对 API 用户来说,至少现有说法是未受影响;如果你主要走 API 自己搭工作流,这次不该直接等同于底模失灵。
第二,如果你的团队最近正打算把 Claude Code 接进日常开发,最好补一轮验证,再决定是继续上、暂时观望,还是给其他工具留后手。重点别只看单轮回答质量,要看四件事:
- 长会话是否还稳定
- 多步工具调用是否更容易跑偏
- 复杂仓库改动的成功率有没有回到之前水平
- usage limits 和延迟是否恢复正常
第三,如果你前几周已经因为体验波动,开始把任务分流到别的工具,现在不一定要立刻迁回。更稳妥的做法是先拿固定任务集复测。原因很简单:这次暴露的是治理问题,不是一次 UI 小瑕疵。问题修掉了,不等于流程已经补牢。
Anthropic也给出了一些后续动作:加强 prompt 变更审计,让更多员工直接使用公网版本,扩大代码审查上下文。这些方向是对的,但还得看执行。
我接下来会盯三件事。
一是它们会不会把评测重点真正转向长会话、多工具、复杂代码库,而不只是短任务跑分。要是评测框架不换,下次还会撞到同一堵墙。
二是默认值怎么定。默认值从来不是小事,它代表平台替用户做了什么选择。把 effort 默认拨低,很多用户根本不会手动改,结果就是平台替你决定:先省一点,再弱一点。
三是修复后是否稳定。现在能确认的是,Anthropic已经回滚和修复了三处问题;但从公开信息看,还没有足够证据证明所有真实场景都完全恢复。对生产团队来说,最靠谱的仍是自己测,而不是只看公告。
这次 Anthropic 倒是做了一件对的事:把账摊开了,没把所有抱怨都打成“主观感受”。这点比装作无事发生强得多。
但话也得说满一半。能公开复盘,值得肯定;能让三次外层调优连续伤到能力感知,也说明它的产品治理和评测还没站稳。模型分数是上限,默认参数才是日常现实。用户每天撞上的,从来不是发布会里的 Claude,而是产品经理手里那个 Claude。
