Claude Code 被曝缓存策略“悄悄变脸”：1 小时缩水到 5 分钟，谁在为 AI 编程的停顿买单？

开发工具 2026年4月12日

一份来自 GitHub 的用户调查，把 Claude Code 一个看似不起眼的参数推上了台前：提示词缓存的默认 TTL，疑似在 2026 年 3 月初从 1 小时悄悄退回到 5 分钟。问题不只在技术细节，而在于这类“后台配置”一旦缺乏透明度，用户付出的就不仅是额外成本，还有订阅额度、工作流稳定性，以及对平台的信任。

一次“安静”的回退，为什么让开发者炸了锅

AI 产品最近几年最擅长做两件事：一是把复杂技术讲得像魔法，二是把魔法背后的计费逻辑藏得很深。Claude Code 这次引发争议的，恰恰不是模型能力下降，也不是界面改版，而是一个普通用户平时几乎不会主动关注的参数——缓存 TTL，也就是缓存内容能存活多久。

事情的起点，是一位用户在 GitHub 上提交了一份相当“硬核”的问题报告。他翻查了自己本地 ~/.claude/projects/ 目录下长达三个月的 JSONL 会话日志，又对比了 Linux 工作站和 Windows 笔记本两台机器、两个独立账号，共计 11.9 万多次 API 调用，试图回答一个朴素的问题：为什么从 3 月开始，Claude Code 突然变得更“烧额度”、更“烧钱”了？

答案很可能藏在缓存策略里。根据这份分析，Anthropic 似乎在 2026 年 2 月初一度将 Claude Code 的默认缓存 TTL 提升到 1 小时，并且稳定维持了一个多月；但到了 3 月 6 日到 8 日之间，这个默认值又悄悄退回到 5 分钟。没有公告，没有变更说明，没有用户侧版本更新，只有账单和额度提醒开始变得越来越不友好。

这也是为什么开发者会愤怒。因为这不是“多收了几分钱”的问题，而是你正在连续写代码、调试、思考、去泡杯咖啡、回一条消息，五分钟一过，刚才那一大坨上下文缓存就失效了。对人类来说，这是再自然不过的工作节奏；对计费系统来说，这意味着又要重传、重建、重新收费。

5 分钟和 1 小时，差的不是 55 分钟，是整个使用体验

缓存 TTL 听起来像后端工程师才关心的词，但放到 AI 编程产品里，它几乎直接决定了“你和模型对话的经济学”。Claude Code 这类产品为了让模型理解你的项目，会把上下文——代码片段、历史消息、文件结构、指令——缓存起来。下次继续对话时，如果缓存还活着，就按“读取缓存”计费；如果缓存过期了，就得重新创建缓存，成本和额度占用都高得多。

问题就出在这里。根据报告引用的 Anthropic 官方价格，Sonnet 档位下，5 分钟缓存写入是每百万 token 3.75 美元，1 小时缓存写入是 6 美元，而缓存读取只要 0.30 美元。乍看之下，1 小时写入单价更贵，似乎 5 分钟更省钱；但真实世界不是这么算的。开发者不是每 30 秒都机械地敲回车，而是会停下来读代码、跑测试、查文档、开会、上厕所。5 分钟 TTL 在这种工作流里，几乎等于“频繁失忆”。

于是，真正昂贵的不是一次写入，而是无数次本来可以走廉价 cache read 的访问，被迫变成高价 cache creation。报告里有个很扎眼的数据：三个月内，有 2.2 亿 token 被写入 5 分钟缓存层，而这些 token 后续产生了 57 亿次缓存读取。这说明它们并不是“写了不用”，而是持续被使用。如果这些内容当时落在 1 小时缓存层上，那么大量同一小时内的再次访问，本来都可以按读取而不是重建计费。

这也是为什么报告得出一个看似反直觉、实则非常合理的结论：TTL 从 1 小时退回 5 分钟后，整体缓存创建成本上升了 20% 到 32%，总浪费比例达到 17.1%。对高频用户来说，这不是统计学上的毛刺，而是月底账单会真实变厚、订阅额度会真实变薄。

最敏感的不是钱，而是订阅用户第一次“撞墙”

如果这只是 API 用户的成本优化问题，它大概还停留在技术论坛争论阶段。但 Claude Code 现在同时服务大量订阅用户，而订阅产品最怕的一件事，就是用户感觉“我明明没怎么更重度使用，却更快撞到上限了”。

报告作者提到，自己在 2026 年 3 月之前从未碰到 5 小时配额限制，但从 3 月开始第一次频繁触顶。结合另一条相关 issue，社区怀疑缓存创建 token 是按更高权重计入额度，而缓存读取则便宜得多。换句话说，用户感受到的不是单纯“价格上涨”，而是平台在没有提前解释的情况下，改变了一个会影响配额消耗速度的核心规则。

这类变化最伤信任。因为订阅用户购买的不是某次调用，而是一种预期：我大致知道自己一天能写多少代码、开多少会话、花多少时间和模型协作。如果后台参数能在无感知的情况下改变，用户的“使用边界”就会突然失真。今天是缓存 TTL，明天会不会是上下文压缩策略、读取折算系数、模型路由优先级？

从行业视角看，这也是 AI 编程工具进入成熟期后绕不开的问题。过去大家比的是模型聪不聪明、补全快不快、Agent 会不会自动改代码；现在更深一层的竞争，其实是“基础设施的可预期性”。GitHub Copilot、Cursor、Claude Code、各种 IDE Agent，表面都在卖智能，底层拼的却越来越像云服务：延迟、缓存、计费、配额、公平性、透明度。产品一旦进入工作流，用户就不会把它当玩具看待。

这件事真正刺痛行业的，是“静默变更”四个字

如果 Anthropic 公开宣布：“出于基础设施压力，我们暂时将默认 TTL 调整为 5 分钟”，市场未必会买账，但至少是坦诚的。现在最让人不舒服的，是用户只能靠挖本地日志、反推 token 分布、自己写分析工具，才拼出变化轨迹。这种侦探式用法，本身就说明平台和用户之间的信息差已经过大。

更微妙的是，这次数据并非来自单一设备上的偶发异常，而是两台机器、两个账号，在相近日期共同出现转折：2 月 1 日到 3 月 5 日几乎清一色是 1 小时缓存，3 月 6 日开始 5 分钟 token 重新出现，3 月 8 日后迅速占据主导。这样的形态，很像一次服务端配置切换，甚至是分阶段 rollout，而不太像客户端 bug 或用户操作习惯变化。

当然，站在 Anthropic 一边，也不是完全没有可能的解释。比如 1 小时 TTL 在基础设施层面可能带来了更高的内存占用、跨区域同步压力，或者引发了缓存命中以外的新问题；也可能是不同套餐、不同区域、不同模型之间做了 A/B 测试。但无论真实原因是什么，缺少说明就是问题本身。AI 公司今天越来越像云平台，就应该接受云平台级别的透明度要求：配置变更日志、计费行为文档、套餐差异说明，都不该靠用户自行考古。

这让我想到过去一些云厂商和 SaaS 厂商踩过的坑：一个“默认值”被产品经理当作小调整，一个“后端开关”被工程团队视作无伤大雅，最后落到用户手里，却是预算超支、工作中断、投诉爆发。AI 行业现在最缺的，从来不只是更强的模型，而是更像基础设施的职业素养。

Claude Code 不只是一个个案，它暴露了 AI 工具的新矛盾

今天的 AI 编程工具有个很有意思的悖论：它们越强调长上下文、持续协作、多轮代理，就越依赖稳定而廉价的缓存；可它们的商业模式又常常希望控制推理与存储成本，于是缓存策略就成了最容易“动手术”的地方。用户想要的是模型像同事一样记得住上下文，平台考虑的却是每多记一分钟，要多付多少 GPU、内存和存储的账。

从这个角度看，Claude Code 的这次争议并不是孤例，而是整个 AI Agent 时代会反复出现的摩擦：用户购买的是“连续性”，平台售卖的却仍是“按 token 计价的离散服务”。当两者冲突时，谁来承担那段被抹掉的记忆成本？

我个人的判断是，1 小时 TTL 至少更符合 Claude Code 这类产品的真实场景。写代码不是刷短视频，开发者会频繁停顿、切换窗口、运行测试、跟同事同步。把缓存寿命卡在 5 分钟，本质上是在惩罚正常工作节奏。更合理的做法，要么恢复 1 小时默认值，要么干脆把 TTL 做成用户可见、可选的配置项，让重度用户在成本、速度和缓存持久性之间自行权衡。

更进一步，Anthropic 以及所有同类厂商都应该把缓存读取如何计入额度、不同 TTL 对配额的影响、后台策略何时调整，讲清楚。因为对开发者来说，最不能接受的从来不是“贵”，而是“贵得不明不白”；最不能接受的也不是限制，而是规则在悄悄变化。

说到底，AI 编程产品正在从“新奇工具”变成“生产力基础设施”。基础设施有一个很朴素的原则：你可以收费，你也可以限流，但你最好别一边改水表，一边假装水压没变。

Summary: 这次争议的核心，不是 Anthropic 到底有没有把默认 TTL 从 1 小时改回 5 分钟，而是 AI 编程工具已经进入一个必须讲清楚底层规则的阶段。我的判断是，若平台继续把缓存、配额和计费逻辑留在“黑箱”里，类似风波只会越来越多。接下来行业会被迫走向两个方向：要么提供更透明的使用与计费说明，要么把关键缓存策略交还给用户选择。谁先做到这一点，谁就更可能赢得开发者的长期信任。

Claude Code提示词缓存 TTLAnthropicGitHubAI 编程缓存策略回退API 调用成本订阅额度工作流稳定性透明度