Anthropic 给 Claude Managed Agents 加了一个很会传播的词:dreaming,做梦。
但这里没有意识,也没有类人睡眠。它更像一次自动复盘:系统定期回看过去的 session 和 memory store,找出值得长期保存的偏好、流程、错误模式,再写进未来任务上下文。
这件事真正有意思的地方,不是 Claude 像不像人。是 Agent 开始承认一件事:长任务不是靠一次聪明回答跑完的。它需要记忆、接力、分工和算账。
dreaming 到底是什么,谁现在能用
这次发布发生在 Anthropic 的 Code with Claude 开发者大会上。主角不是普通 Claude 聊天窗口,而是 Claude Platform 上的 Managed Agents。
Managed Agents 可以理解为 Anthropic 托管的一套可配置 Agent harness。它面向数分钟到数小时的任务,也面向多 Agent 协作。开发者不用完全从 Messages API 自己搭 Agent 基础设施,而是把一部分编排和运行框架交给 Anthropic。
关键信息压缩一下:
| 项目 | 这次变化 | 现实限制 |
|---|---|---|
| dreaming | 定期分析过去 session 和 memory store,提炼高价值记忆 | 不是意识,不是真做梦 |
| 适用范围 | Claude Platform 的 Managed Agents | research preview,开发者需申请访问 |
| 核心差异 | 跨 session、跨 Agent 找模式和偏好 | 不是所有 Claude 用户可用 |
| 同场更新 | outcomes、多 Agent orchestration 扩大可用性 | 仍主要面向开发者能力 |
| Claude Code | Pro/Max 用户 5 小时窗口内使用限制翻倍 | 不代表算力压力已经消失 |
这里要和普通 compaction 分开看。
很多长对话产品已经会做 compaction。一个会话太长,就把前文压缩,尽量保留当前任务需要的信息。它解决的是“这一轮别爆上下文”。
dreaming 想解决的是另一件事:过去多个任务、多个 Agent 里,哪些经验应该进入未来工作。比如反复出现的代码偏好、流程选择、失败模式、团队习惯。
一句话:compaction 是给当下会话减负,dreaming 是给未来协作留账。
这对普通 Claude 用户影响有限。它现在不是一个全员开放的新按钮。真正需要看的是 AI 开发者、Agent 产品团队、企业自动化团队。
如果你正在做多 Agent 长任务,尤其是代码、研究、流程执行这类场景,就该开始调整设计重心:别只盯模型调用,得把 memory store、状态流转、结果定义一起设计进去。
如果你只是 Claude Code 用户,额度翻倍当然是好消息。但它更像一次供给缓解,不是“算力问题解决了”的证明。原文提到此前基础设施追不上需求、用户不满,这个约束还在。
Agent 的难点,已经从回答变成组织记忆
过去一年,行业很爱讲 Agent。能写代码、查资料、调用工具、跑工作流。听起来像一个电子员工。
但长任务最常翻车的地方,往往不在单次回答。它死在三件事上:上下文丢失,状态混乱,协作断层。
模型再强,如果不知道前一个 Agent 为什么这么改,不记得团队偏好,不理解此前哪里踩过坑,最后还是会重复犯错。人类组织里叫“没有沉淀”。AI 系统里,就是记忆和状态管理没跟上。
Anthropic 这次方向是对的。它没有继续把 Agent 包装成“多开几个模型实例”。它把问题推向中间层:记忆、编排、状态、结果。
这也解释了为什么 Anthropic 同时提 outcomes 和 multi-agent orchestration。Agent 要长期工作,必须知道什么叫完成,谁负责哪一段,上一轮经验怎么进入下一轮。
“工欲善其事,必先利其器。”今天这个“器”,已经不是模型参数本身。它是一整套工作记忆。
对企业技术负责人来说,这里会出现一个很现实的取舍。
短期内,托管式 Agent harness 更省事。少搭底层框架,快一点把多 Agent 工作流跑起来。对资源有限的团队,这是诱惑。
代价也明确。记忆格式、筛选规则、跨任务沉淀方式,都可能越来越贴近平台。企业如果要采购或试点,别只问“模型强不强”。更该问三件事:记忆能不能审阅,能不能导出,能不能在团队边界内隔离。
这不是把问题想复杂了。带记忆的 Agent,越用越像组织资产。资产最怕黑箱。
“梦见什么、忘掉什么”,会变成平台控制力
我更在意的不是 dreaming 这个名字,而是它背后的筛选权。
长期记忆听起来很顺:少重复,懂偏好,会复盘。但问题马上来了:什么算高价值记忆?哪些错误应该保留?哪些偏好可以跨任务共享?哪些信息必须忘掉?
如果用户逐条审阅 memory changes,控制力更强,操作成本也更高。如果系统自动整理,体验更顺,平台就拿到更大的解释权。
这不是阴谋论。产品结构本来就会这样分配权力。
一个带记忆的 Agent 系统,知道你的代码风格、业务流程、审核习惯、常见故障和内部偏好。谁掌握记忆格式、迁移能力和筛选规则,谁就掌握了这个工作系统的黏性。
历史上平台战争常常不是赢在第一个入口,而是赢在沉淀层。PC 时代有文件格式,互联网时代有账号和关系链,云时代有数据和工作流。今天轮到 Agent,沉淀层很可能叫记忆。
这个类比不完全一样。Agent 记忆还很早,Anthropic 这次也只是 research preview。但重复的是同一种结构:当工具开始替你保存经验,工具就不再只是工具。
开发者接下来不该只看 demo。更该盯几个变量:
| 观察变量 | 为什么关键 | 对谁影响最大 |
|---|---|---|
| 记忆审阅机制 | 决定用户能否纠错、删除、确认长期记忆 | 企业团队、合规敏感场景 |
| 记忆迁移能力 | 决定是否被单一平台锁住 | Agent 产品开发者、采购方 |
| 团队边界与权限 | 决定偏好和经验能否安全共享 | 企业自动化负责人 |
| 长任务算力供给 | 决定多 Agent 工作流能不能稳定跑 | Claude Code 重度用户、开发团队 |
| outcomes 定义方式 | 决定 Agent 是否真能围绕结果工作 | 构建工作流的开发者 |
我不太买账的是把 dreaming 当成“Claude 更像人”的说法。这个方向容易热闹,也容易跑偏。
真正该兴奋,也该警惕的,是它让 Agent 更像组织系统。组织系统有收益,也有代价。收益是经验可继承,代价是控制权要重新分配。
对开发者来说,动作很具体:如果正在做 Agent 产品,尽早把记忆层抽象出来,不要完全绑死在某一家平台的默认机制里。能用托管能力提速,但别把全部组织记忆交给黑箱。
对企业团队来说,动作也很具体:可以试点,但采购别急着一步到位。先拿低风险流程验证,比如代码辅助、内部研究、重复性运营任务。涉及客户数据、核心业务规则、权限复杂的流程,要等记忆审阅、隔离和迁移机制更清楚。
Claude Code 用户则简单一些。5 小时窗口内限制翻倍,会改善重度使用体验。但如果你的任务经常卡在长时间、多步骤、多文件协作上,真正要看的不是这一次额度,而是后面基础设施能不能稳定支撑。
模型看着越来越像员工,成本也越来越像组织管理。要分工,要记账,要复盘,还要决定谁有权改账本。
回到开头那个词。dreaming 的名字很轻,真正重的是账本。Claude 没有在做梦,它在学习怎样把一次次任务变成可继承的工作记忆。下一道门槛,不是会不会回答,而是谁来决定记住什么。
