Anthropic承认Claude Code最近变差：不是底模退化，是产品层三次改动把体验拧坏了

核心摘要 Summary

Anthropic确认，近一个月Claude Code“变笨、健忘、重复、耗额异常”的反馈基本属实，但问题不在底层模型或API，而在产品层三次改动叠加。
三项改动分别涉及默认 reasoning effort 下调、会话清理 bug 误删推理历史、系统提示词过度压缩输出，已在4月7日、10日、20日前后回滚或修复。
真正该盯的不是“故意降智”，而是平台为延迟、成本和表面顺滑去拧外层旋钮，结果把重度开发者最依赖的能力感知先打碎了。

Anthropic这次认得很直接：最近一个月，Claude Code 的确出现了“更差”的情况。用户说它变笨、健忘、重复、工具乱调、额度掉得快，不是错觉。

但边界也要说清。Anthropic明确表示，问题不在底层模型训练，也不在 API 推理层。受影响的主要是 Claude Code、Claude Agent SDK 和 Claude Cowork 这些产品层封装，到 4 月 20 日前后，相关问题都已回滚或修复。

这件事的关键，不是“模型有没有被偷偷阉割”。目前看，证据不支持这个说法。更关键的是另一层：模型没换，用户却真觉得它没以前能干了。AI 产品的能力感知，很多时候不是榜单分数决定的，而是默认参数、上下文管理、系统提示词这些外层旋钮决定的。失之毫厘，差的就是整段工作流。

三次改动，具体影响了谁

Anthropic给出的时间线很清楚：

改动	时间	影响范围	主要症状	处理时间
默认 reasoning effort 从 high 调到 medium	3月4日	Claude Code 中的 Sonnet 4.6、Opus 4.6	看起来没那么聪明，但延迟更低、耗额更少	4月7日回滚
闲置会话清理 bug 误删推理历史	3月26日	Claude Code 中的 Sonnet 4.6、Opus 4.6	健忘、重复、工具调用异常、usage limits 消耗异常	4月10日修复
系统提示词限制冗长度	4月16日	Sonnet 4.6、Opus 4.6、Opus 4.7	编码质量下降，输出被压得过短	4月20日回滚

三件事单看，都像常见产品调优。叠在一起，用户看到的就是另一回事：回答不稳定，长会话容易断，多步任务更容易跑偏，甚至连额度消耗都变得不正常。

Anthropic还补了一条很重要的信息：最初它们的内部 eval 没复现，内部使用也没及时发现。后来做更大范围的 ablation，才在一项更宽的 coding eval 里看到约 3% 的下降。

这个数字不能被夸大。它不等于所有场景全面崩坏，也不等于底模整体退化。但它足够说明一件事：原来的评测，没有覆盖到重度开发者最在意的真实用法。

受影响最深的，其实不是随手问两句的人，而是把 Claude Code 当生产工具的人。比如要改复杂仓库、跑多步工具链、接长会话、断点续做的开发者。对这类用户，哪怕底模没变，只要“思考力度”被调低、推理历史被删、输出再被硬压短，工作流就会先塌。

Anthropic给所有订阅用户重置 usage limits，也说明它承认这不是一句“已修复”就能带过的事。

这不是单点事故，是产品治理和评测一起失真

我更在意的，不是这三次改动本身，而是它们为什么能连续发生，还连续穿过内部测试。

账其实不难算。下调默认 effort，是在换延迟和成本。清理闲置会话，是在省资源。压缩输出，是在控冗长、控 token、控表面体验。每一项都能讲出理由。

问题在于，三笔账都朝同一个方向扣：让系统更省、更快、更顺眼。最后被吃掉的，是用户对“它真能做完这件事”的信心。

这就是今天很多 AI 产品的典型问题。底模发布时拼命讲上限，落到产品层却不断拧默认值、限输出、管上下文、抠成本。用户最后感受到的，不是实验室里的最好成绩，而是默认设置下那套被裁过一轮的版本。

古话说“天下熙熙，皆为利来”。放在这里不复杂：算力贵，响应慢，配额紧，平台一定会动这些旋钮。问题不在于它动不动，而在于谁来为副作用买单。答案通常很现实：重度用户先买单。

Anthropic这次的复盘还暴露出另一个更麻烦的点：内部 dogfooding、代码审查、自动化测试、端到端测试，都没把问题提前拦住。说明症结不只是一个 bug，也不只是一次 prompt 写坏了。

更像是评测环境和真实公网使用之间有缝。内部任务更短、更干净、更可控；真实开发现场则是长会话、脏上下文、多工具调用、仓库历史复杂、失败成本更高。这两边一旦脱节，离线指标再漂亮，线上体验还是会“味道不对”。这不是新病。搜索、推荐、广告系统都犯过。今天轮到 AI 编程工具而已。

对开发团队来说，现在该怎么判断

如果你是 Claude Code 的重度用户，现在最实用的判断只有几个。

第一，不要把这件事理解成“底模突然退化”。按目前公开信息，这更像产品封装层出了连续事故。对 API 用户来说，至少现有说法是未受影响；如果你主要走 API 自己搭工作流，这次不该直接等同于底模失灵。

第二，如果你的团队最近正打算把 Claude Code 接进日常开发，最好补一轮验证，再决定是继续上、暂时观望，还是给其他工具留后手。重点别只看单轮回答质量，要看四件事：

长会话是否还稳定
多步工具调用是否更容易跑偏
复杂仓库改动的成功率有没有回到之前水平
usage limits 和延迟是否恢复正常

第三，如果你前几周已经因为体验波动，开始把任务分流到别的工具，现在不一定要立刻迁回。更稳妥的做法是先拿固定任务集复测。原因很简单：这次暴露的是治理问题，不是一次 UI 小瑕疵。问题修掉了，不等于流程已经补牢。

Anthropic也给出了一些后续动作：加强 prompt 变更审计，让更多员工直接使用公网版本，扩大代码审查上下文。这些方向是对的，但还得看执行。

我接下来会盯三件事。

一是它们会不会把评测重点真正转向长会话、多工具、复杂代码库，而不只是短任务跑分。要是评测框架不换，下次还会撞到同一堵墙。

二是默认值怎么定。默认值从来不是小事，它代表平台替用户做了什么选择。把 effort 默认拨低，很多用户根本不会手动改，结果就是平台替你决定：先省一点，再弱一点。

三是修复后是否稳定。现在能确认的是，Anthropic已经回滚和修复了三处问题；但从公开信息看，还没有足够证据证明所有真实场景都完全恢复。对生产团队来说，最靠谱的仍是自己测，而不是只看公告。

这次 Anthropic 倒是做了一件对的事：把账摊开了，没把所有抱怨都打成“主观感受”。这点比装作无事发生强得多。

但话也得说满一半。能公开复盘，值得肯定；能让三次外层调优连续伤到能力感知，也说明它的产品治理和评测还没站稳。模型分数是上限，默认参数才是日常现实。用户每天撞上的，从来不是发布会里的 Claude，而是产品经理手里那个 Claude。

Anthropic承认Claude Code最近变差：不是底模退化，是产品层三次改动把体验拧坏了

Claude Code变差

责任边界

受影响面

处理进度

三次改动

参数下调

历史误删

核心影响

典型症状

工作流塌陷

暴露问题

优化方向

测试缺口

后续判断

验证重点

关键变量

三次改动，具体影响了谁

这不是单点事故，是产品治理和评测一起失真

对开发团队来说，现在该怎么判断