Claude Code 被曝缓存策略“悄悄变脸”:1 小时缩水到 5 分钟,谁在为 AI 编程的停顿买单?

开发工具 2026年4月12日
Claude Code 被曝缓存策略“悄悄变脸”:1 小时缩水到 5 分钟,谁在为 AI 编程的停顿买单?
一份来自 GitHub 的用户调查,把 Claude Code 一个看似不起眼的参数推上了台前:提示词缓存的默认 TTL,疑似在 2026 年 3 月初从 1 小时悄悄退回到 5 分钟。问题不只在技术细节,而在于这类“后台配置”一旦缺乏透明度,用户付出的就不仅是额外成本,还有订阅额度、工作流稳定性,以及对平台的信任。

一次“安静”的回退,为什么让开发者炸了锅

AI 产品最近几年最擅长做两件事:一是把复杂技术讲得像魔法,二是把魔法背后的计费逻辑藏得很深。Claude Code 这次引发争议的,恰恰不是模型能力下降,也不是界面改版,而是一个普通用户平时几乎不会主动关注的参数——缓存 TTL,也就是缓存内容能存活多久。

事情的起点,是一位用户在 GitHub 上提交了一份相当“硬核”的问题报告。他翻查了自己本地 ~/.claude/projects/ 目录下长达三个月的 JSONL 会话日志,又对比了 Linux 工作站和 Windows 笔记本两台机器、两个独立账号,共计 11.9 万多次 API 调用,试图回答一个朴素的问题:为什么从 3 月开始,Claude Code 突然变得更“烧额度”、更“烧钱”了?

答案很可能藏在缓存策略里。根据这份分析,Anthropic 似乎在 2026 年 2 月初一度将 Claude Code 的默认缓存 TTL 提升到 1 小时,并且稳定维持了一个多月;但到了 3 月 6 日到 8 日之间,这个默认值又悄悄退回到 5 分钟。没有公告,没有变更说明,没有用户侧版本更新,只有账单和额度提醒开始变得越来越不友好。

这也是为什么开发者会愤怒。因为这不是“多收了几分钱”的问题,而是你正在连续写代码、调试、思考、去泡杯咖啡、回一条消息,五分钟一过,刚才那一大坨上下文缓存就失效了。对人类来说,这是再自然不过的工作节奏;对计费系统来说,这意味着又要重传、重建、重新收费。

5 分钟和 1 小时,差的不是 55 分钟,是整个使用体验

缓存 TTL 听起来像后端工程师才关心的词,但放到 AI 编程产品里,它几乎直接决定了“你和模型对话的经济学”。Claude Code 这类产品为了让模型理解你的项目,会把上下文——代码片段、历史消息、文件结构、指令——缓存起来。下次继续对话时,如果缓存还活着,就按“读取缓存”计费;如果缓存过期了,就得重新创建缓存,成本和额度占用都高得多。

问题就出在这里。根据报告引用的 Anthropic 官方价格,Sonnet 档位下,5 分钟缓存写入是每百万 token 3.75 美元,1 小时缓存写入是 6 美元,而缓存读取只要 0.30 美元。乍看之下,1 小时写入单价更贵,似乎 5 分钟更省钱;但真实世界不是这么算的。开发者不是每 30 秒都机械地敲回车,而是会停下来读代码、跑测试、查文档、开会、上厕所。5 分钟 TTL 在这种工作流里,几乎等于“频繁失忆”。

于是,真正昂贵的不是一次写入,而是无数次本来可以走廉价 cache read 的访问,被迫变成高价 cache creation。报告里有个很扎眼的数据:三个月内,有 2.2 亿 token 被写入 5 分钟缓存层,而这些 token 后续产生了 57 亿次缓存读取。这说明它们并不是“写了不用”,而是持续被使用。如果这些内容当时落在 1 小时缓存层上,那么大量同一小时内的再次访问,本来都可以按读取而不是重建计费。

这也是为什么报告得出一个看似反直觉、实则非常合理的结论:TTL 从 1 小时退回 5 分钟后,整体缓存创建成本上升了 20% 到 32%,总浪费比例达到 17.1%。对高频用户来说,这不是统计学上的毛刺,而是月底账单会真实变厚、订阅额度会真实变薄。

最敏感的不是钱,而是订阅用户第一次“撞墙”

如果这只是 API 用户的成本优化问题,它大概还停留在技术论坛争论阶段。但 Claude Code 现在同时服务大量订阅用户,而订阅产品最怕的一件事,就是用户感觉“我明明没怎么更重度使用,却更快撞到上限了”。

报告作者提到,自己在 2026 年 3 月之前从未碰到 5 小时配额限制,但从 3 月开始第一次频繁触顶。结合另一条相关 issue,社区怀疑缓存创建 token 是按更高权重计入额度,而缓存读取则便宜得多。换句话说,用户感受到的不是单纯“价格上涨”,而是平台在没有提前解释的情况下,改变了一个会影响配额消耗速度的核心规则。

这类变化最伤信任。因为订阅用户购买的不是某次调用,而是一种预期:我大致知道自己一天能写多少代码、开多少会话、花多少时间和模型协作。如果后台参数能在无感知的情况下改变,用户的“使用边界”就会突然失真。今天是缓存 TTL,明天会不会是上下文压缩策略、读取折算系数、模型路由优先级?

从行业视角看,这也是 AI 编程工具进入成熟期后绕不开的问题。过去大家比的是模型聪不聪明、补全快不快、Agent 会不会自动改代码;现在更深一层的竞争,其实是“基础设施的可预期性”。GitHub Copilot、Cursor、Claude Code、各种 IDE Agent,表面都在卖智能,底层拼的却越来越像云服务:延迟、缓存、计费、配额、公平性、透明度。产品一旦进入工作流,用户就不会把它当玩具看待。

这件事真正刺痛行业的,是“静默变更”四个字

如果 Anthropic 公开宣布:“出于基础设施压力,我们暂时将默认 TTL 调整为 5 分钟”,市场未必会买账,但至少是坦诚的。现在最让人不舒服的,是用户只能靠挖本地日志、反推 token 分布、自己写分析工具,才拼出变化轨迹。这种侦探式用法,本身就说明平台和用户之间的信息差已经过大。

更微妙的是,这次数据并非来自单一设备上的偶发异常,而是两台机器、两个账号,在相近日期共同出现转折:2 月 1 日到 3 月 5 日几乎清一色是 1 小时缓存,3 月 6 日开始 5 分钟 token 重新出现,3 月 8 日后迅速占据主导。这样的形态,很像一次服务端配置切换,甚至是分阶段 rollout,而不太像客户端 bug 或用户操作习惯变化。

当然,站在 Anthropic 一边,也不是完全没有可能的解释。比如 1 小时 TTL 在基础设施层面可能带来了更高的内存占用、跨区域同步压力,或者引发了缓存命中以外的新问题;也可能是不同套餐、不同区域、不同模型之间做了 A/B 测试。但无论真实原因是什么,缺少说明就是问题本身。AI 公司今天越来越像云平台,就应该接受云平台级别的透明度要求:配置变更日志、计费行为文档、套餐差异说明,都不该靠用户自行考古。

这让我想到过去一些云厂商和 SaaS 厂商踩过的坑:一个“默认值”被产品经理当作小调整,一个“后端开关”被工程团队视作无伤大雅,最后落到用户手里,却是预算超支、工作中断、投诉爆发。AI 行业现在最缺的,从来不只是更强的模型,而是更像基础设施的职业素养。

Claude Code 不只是一个个案,它暴露了 AI 工具的新矛盾

今天的 AI 编程工具有个很有意思的悖论:它们越强调长上下文、持续协作、多轮代理,就越依赖稳定而廉价的缓存;可它们的商业模式又常常希望控制推理与存储成本,于是缓存策略就成了最容易“动手术”的地方。用户想要的是模型像同事一样记得住上下文,平台考虑的却是每多记一分钟,要多付多少 GPU、内存和存储的账。

从这个角度看,Claude Code 的这次争议并不是孤例,而是整个 AI Agent 时代会反复出现的摩擦:用户购买的是“连续性”,平台售卖的却仍是“按 token 计价的离散服务”。当两者冲突时,谁来承担那段被抹掉的记忆成本?

我个人的判断是,1 小时 TTL 至少更符合 Claude Code 这类产品的真实场景。写代码不是刷短视频,开发者会频繁停顿、切换窗口、运行测试、跟同事同步。把缓存寿命卡在 5 分钟,本质上是在惩罚正常工作节奏。更合理的做法,要么恢复 1 小时默认值,要么干脆把 TTL 做成用户可见、可选的配置项,让重度用户在成本、速度和缓存持久性之间自行权衡。

更进一步,Anthropic 以及所有同类厂商都应该把缓存读取如何计入额度、不同 TTL 对配额的影响、后台策略何时调整,讲清楚。因为对开发者来说,最不能接受的从来不是“贵”,而是“贵得不明不白”;最不能接受的也不是限制,而是规则在悄悄变化。

说到底,AI 编程产品正在从“新奇工具”变成“生产力基础设施”。基础设施有一个很朴素的原则:你可以收费,你也可以限流,但你最好别一边改水表,一边假装水压没变。

Summary: 这次争议的核心,不是 Anthropic 到底有没有把默认 TTL 从 1 小时改回 5 分钟,而是 AI 编程工具已经进入一个必须讲清楚底层规则的阶段。我的判断是,若平台继续把缓存、配额和计费逻辑留在“黑箱”里,类似风波只会越来越多。接下来行业会被迫走向两个方向:要么提供更透明的使用与计费说明,要么把关键缓存策略交还给用户选择。谁先做到这一点,谁就更可能赢得开发者的长期信任。
Claude Code提示词缓存 TTLAnthropicGitHubAI 编程缓存策略回退API 调用成本订阅额度工作流稳定性透明度