Anthropic 给 Claude Managed Agents 加了一个很会传播的词:dreaming,做梦。

但这里没有意识,也没有类人睡眠。它更像一次自动复盘:系统定期回看过去的 session 和 memory store,找出值得长期保存的偏好、流程、错误模式,再写进未来任务上下文。

这件事真正有意思的地方,不是 Claude 像不像人。是 Agent 开始承认一件事:长任务不是靠一次聪明回答跑完的。它需要记忆、接力、分工和算账。

dreaming 到底是什么,谁现在能用

这次发布发生在 Anthropic 的 Code with Claude 开发者大会上。主角不是普通 Claude 聊天窗口,而是 Claude Platform 上的 Managed Agents。

Managed Agents 可以理解为 Anthropic 托管的一套可配置 Agent harness。它面向数分钟到数小时的任务,也面向多 Agent 协作。开发者不用完全从 Messages API 自己搭 Agent 基础设施,而是把一部分编排和运行框架交给 Anthropic。

关键信息压缩一下:

项目这次变化现实限制
dreaming定期分析过去 session 和 memory store,提炼高价值记忆不是意识,不是真做梦
适用范围Claude Platform 的 Managed Agentsresearch preview,开发者需申请访问
核心差异跨 session、跨 Agent 找模式和偏好不是所有 Claude 用户可用
同场更新outcomes、多 Agent orchestration 扩大可用性仍主要面向开发者能力
Claude CodePro/Max 用户 5 小时窗口内使用限制翻倍不代表算力压力已经消失

这里要和普通 compaction 分开看。

很多长对话产品已经会做 compaction。一个会话太长,就把前文压缩,尽量保留当前任务需要的信息。它解决的是“这一轮别爆上下文”。

dreaming 想解决的是另一件事:过去多个任务、多个 Agent 里,哪些经验应该进入未来工作。比如反复出现的代码偏好、流程选择、失败模式、团队习惯。

一句话:compaction 是给当下会话减负,dreaming 是给未来协作留账。

这对普通 Claude 用户影响有限。它现在不是一个全员开放的新按钮。真正需要看的是 AI 开发者、Agent 产品团队、企业自动化团队。

如果你正在做多 Agent 长任务,尤其是代码、研究、流程执行这类场景,就该开始调整设计重心:别只盯模型调用,得把 memory store、状态流转、结果定义一起设计进去。

如果你只是 Claude Code 用户,额度翻倍当然是好消息。但它更像一次供给缓解,不是“算力问题解决了”的证明。原文提到此前基础设施追不上需求、用户不满,这个约束还在。

Agent 的难点,已经从回答变成组织记忆

过去一年,行业很爱讲 Agent。能写代码、查资料、调用工具、跑工作流。听起来像一个电子员工。

但长任务最常翻车的地方,往往不在单次回答。它死在三件事上:上下文丢失,状态混乱,协作断层。

模型再强,如果不知道前一个 Agent 为什么这么改,不记得团队偏好,不理解此前哪里踩过坑,最后还是会重复犯错。人类组织里叫“没有沉淀”。AI 系统里,就是记忆和状态管理没跟上。

Anthropic 这次方向是对的。它没有继续把 Agent 包装成“多开几个模型实例”。它把问题推向中间层:记忆、编排、状态、结果。

这也解释了为什么 Anthropic 同时提 outcomes 和 multi-agent orchestration。Agent 要长期工作,必须知道什么叫完成,谁负责哪一段,上一轮经验怎么进入下一轮。

“工欲善其事,必先利其器。”今天这个“器”,已经不是模型参数本身。它是一整套工作记忆。

对企业技术负责人来说,这里会出现一个很现实的取舍。

短期内,托管式 Agent harness 更省事。少搭底层框架,快一点把多 Agent 工作流跑起来。对资源有限的团队,这是诱惑。

代价也明确。记忆格式、筛选规则、跨任务沉淀方式,都可能越来越贴近平台。企业如果要采购或试点,别只问“模型强不强”。更该问三件事:记忆能不能审阅,能不能导出,能不能在团队边界内隔离。

这不是把问题想复杂了。带记忆的 Agent,越用越像组织资产。资产最怕黑箱。

“梦见什么、忘掉什么”,会变成平台控制力

我更在意的不是 dreaming 这个名字,而是它背后的筛选权。

长期记忆听起来很顺:少重复,懂偏好,会复盘。但问题马上来了:什么算高价值记忆?哪些错误应该保留?哪些偏好可以跨任务共享?哪些信息必须忘掉?

如果用户逐条审阅 memory changes,控制力更强,操作成本也更高。如果系统自动整理,体验更顺,平台就拿到更大的解释权。

这不是阴谋论。产品结构本来就会这样分配权力。

一个带记忆的 Agent 系统,知道你的代码风格、业务流程、审核习惯、常见故障和内部偏好。谁掌握记忆格式、迁移能力和筛选规则,谁就掌握了这个工作系统的黏性。

历史上平台战争常常不是赢在第一个入口,而是赢在沉淀层。PC 时代有文件格式,互联网时代有账号和关系链,云时代有数据和工作流。今天轮到 Agent,沉淀层很可能叫记忆。

这个类比不完全一样。Agent 记忆还很早,Anthropic 这次也只是 research preview。但重复的是同一种结构:当工具开始替你保存经验,工具就不再只是工具。

开发者接下来不该只看 demo。更该盯几个变量:

观察变量为什么关键对谁影响最大
记忆审阅机制决定用户能否纠错、删除、确认长期记忆企业团队、合规敏感场景
记忆迁移能力决定是否被单一平台锁住Agent 产品开发者、采购方
团队边界与权限决定偏好和经验能否安全共享企业自动化负责人
长任务算力供给决定多 Agent 工作流能不能稳定跑Claude Code 重度用户、开发团队
outcomes 定义方式决定 Agent 是否真能围绕结果工作构建工作流的开发者

我不太买账的是把 dreaming 当成“Claude 更像人”的说法。这个方向容易热闹,也容易跑偏。

真正该兴奋,也该警惕的,是它让 Agent 更像组织系统。组织系统有收益,也有代价。收益是经验可继承,代价是控制权要重新分配。

对开发者来说,动作很具体:如果正在做 Agent 产品,尽早把记忆层抽象出来,不要完全绑死在某一家平台的默认机制里。能用托管能力提速,但别把全部组织记忆交给黑箱。

对企业团队来说,动作也很具体:可以试点,但采购别急着一步到位。先拿低风险流程验证,比如代码辅助、内部研究、重复性运营任务。涉及客户数据、核心业务规则、权限复杂的流程,要等记忆审阅、隔离和迁移机制更清楚。

Claude Code 用户则简单一些。5 小时窗口内限制翻倍,会改善重度使用体验。但如果你的任务经常卡在长时间、多步骤、多文件协作上,真正要看的不是这一次额度,而是后面基础设施能不能稳定支撑。

模型看着越来越像员工,成本也越来越像组织管理。要分工,要记账,要复盘,还要决定谁有权改账本。

回到开头那个词。dreaming 的名字很轻,真正重的是账本。Claude 没有在做梦,它在学习怎样把一次次任务变成可继承的工作记忆。下一道门槛,不是会不会回答,而是谁来决定记住什么。