4月15日前后,AI圈没有出现那种会立刻刷屏的超级发布会,但方向比很多热闹产品秀更清楚:行业正在把注意力从模型参数、排行榜和演示视频,转回代理真正落地要面对的几件事——执行环境、长期状态、权限边界,以及用户入口。

旧稿已经指出,代理不再只拼模型,开始拼系统。新线索把这个判断补得更完整:OpenAI不只是给 Agents SDK 加功能,而是把 agent harness 与计算、存储拆开;Cloudflare 不只是接入一个 SDK,而是在把“可持续执行 + 沙盒代码 + 浏览器自动化 + 语音”打成一整套运行时;Hermes 也不只是另一个会调工具的 Agent,它把任务沉淀成 Skill,说明工作流复用开始成为产品分界线。这些信息比“又发了一个模型”更接近接下来半年的真实竞争。

OpenAI 把 Agent 底座拆开,新增信息不在 API,而在运行时被单独定义

这次最有价值的新信息,是 OpenAI 明确把 agent harness 从 compute/storage 中拆出来。旧稿谈的是“代理开始拼系统”,新线索把系统拆成了更具体的三层:编排层、状态层、执行层。

这不是字面上的架构调整。它意味着 OpenAI 默认了一件事:Agent 不会长期只活在模型接口里,而是要跑在一个可恢复、可追踪、可隔离的环境中。围绕这套拆分,OpenAI 还继续补上了 durable agents 需要的基础原语,包括:

  • 文件使用
  • 电脑使用
  • memory
  • compaction
  • 长时任务执行

这里真正新增的判断,是“Agent harness”开始像 Web 框架中的控制层,而不是把模型、运行、存储都绑死在一家平台里。OpenAI 还把这层开源,并支持通过合作方沙盒来执行任务。Cloudflare、Modal、Vercel、E2B 等几乎同步接入,说明行业对一件事已经达成共识:代理不能只有推理能力,还要有一个受控执行环境。

这比去年的 Agent Demo 潮现实得多。那一轮演示很多都能点按钮、调工具、自动填表,但进生产环境后很快撞上同一组问题:

  • 权限怎么管
  • 任务中断后怎么恢复
  • 状态丢了怎么办
  • 成本怎么收敛
  • 审计日志怎么留

OpenAI 这次的变化,等于把差异化空间让给了运行时和基础设施提供方。对开发者来说,新增价值不只是“更开放”,而是少押注一个封闭平台;对平台公司来说,新增机会也不只在模型调用费,而在沙盒、状态存储、工作区、日志、恢复、权限、调度这些更像企业预算科目的东西。

Cloudflare 把平台型 Agent 讲得更具体:不是聊天框,而是一套可执行系统

旧稿里如果只是说“代理开始拼系统”,那还偏抽象。新线索把这件事落到了 Cloudflare 的产品组合上。

Cloudflare 这轮动作很密,核心不是单点功能,而是把 Agent 的基础设施版图一次摆出来:

  • Project Think.下一代 Agents SDK,强调 durable execution 和 sandboxed code
  • Agent Lee.一个提示词驱动的 UI Agent,在沙盒化 TypeScript 环境里执行操作
  • 实时语音管线.把语音输入输出直接接入代理链路
  • 浏览器自动化工具.补齐网页执行入口

这些更新合起来,说明 Cloudflare 在押的不是“更像聊天机器人”的 Agent,而是“能持续跑任务的软件执行体”。Project Think 对应的是运行时,Agent Lee 对应的是控制台和 UI 层,浏览器自动化对应的是网页软件入口,语音管线对应的是新的交互层。

这比单纯说“支持 Agent”更具体,也比很多模型发布更有现实感。因为企业真正在乎的不是模型会不会说,而是代理能不能:

  • 在隔离环境里跑代码
  • 留下可审计记录
  • 跨会话保留状态
  • 遇到失败后恢复执行
  • 接入浏览器、后台、文件系统和语音流

如果说 OpenAI 这次是在把 Agent 框架拆开,Cloudflare 做的就是把拆出来的那层生意做厚。这个补强很关键。它说明“平台型 Agent”已经不是抽象概念,而是一条明确的产品路线:卖运行时、卖执行边界、卖企业入口。

Hermes 把另一条路说清楚了:专业代理和 GUI 助手不是一回事

新线索还补强了一个旧稿里值得展开的对照:Hermes 与 OpenClaw 代表的不是同一类产品。

社区把两者并排讨论,分界点不在“会不会用工具”,而在任务完成后能不能沉淀为可复用能力。Hermes 更强调 persistent skill formation,也就是在一次次完成工作流后,把流程保存为后续可调用的 Skill;OpenClaw 更像是 GUI-first assistant,重点是直接操作界面、帮用户完成当前动作。

这两个方向服务的人群不同:

路线代表产品核心能力更适合谁主要限制
平台型 Agent 基础设施OpenAI Agents SDK、Cloudflare Project Think编排、持久执行、沙盒、状态与日志开发者、企业平台团队集成复杂,工程门槛高
工作流型专业代理Hermes从完成过的任务里形成 Skill,复用流程高频办公自动化团队、专业用户权限治理和稳定性仍待验证
GUI/入口型助手OpenClaw、Gemini for Mac、桌面 AI 助手更快接触用户,依赖桌面或浏览器入口普通用户、轻量团队复用性弱,长期价值依赖高频场景

Hermes 的一个代表性描述很能说明差异:它可以自动回填追踪数据、更新 cron 任务,并把完整流程保存成可复用技能。这个能力指向的不是“帮你做一次”,而是“替你形成一个可反复执行的工作模板”。

这也是新线索对旧稿的重要补强:过去大家容易把 Agent 都归成一个篮子,区别只是模型强弱、桌面还是网页、能不能调工具。现在分化已经更具体了。一类在卖底层执行系统,一类在卖工作流复用,一类在卖入口和交互。它们会竞争,但采购逻辑、产品指标和用户预期都不一样。

Google 继续补入口,语音开始从功能模块变成代理默认界面

同一时间线里,Google 推进 Gemini for Mac、Personal Intelligence 和 Gemini 3.1 Flash TTS。这里不是要把 Google 写成另一条平行新闻,而是要补足旧稿里“入口竞争”的那一半。

OpenAI 和 Cloudflare 主要在回答“代理怎么落地”,Google 更像在回答“模型怎么进入日常使用”。Gemini for Mac 用原生 Swift 开发,支持快捷唤起、屏幕共享和本地文件上下文,单看功能并不神奇,和 ChatGPT 桌面端、Raycast 类产品有重叠。但它传递出的变化很实际:Gemini 不再只是一组模型,而是在桌面、Chrome 和 Google 账户体系里找固定入口。

另一个值得补强的点是语音。Gemini 3.1 Flash TTS 加入了 Audio Tags、70多种语言、多说话人、非语言提示和 SynthID 水印,在第三方语音评测里也拿到靠前位置。把这件事和 Cloudflare 的实时语音管线放在一起看,会发现一个更具体的趋势:语音开始从单独的 AI 功能,变成 Agent 的默认输入输出层。

这对不同人群的影响并不一样:

  • 开发者.要更早处理语音流、浏览器操作、沙盒执行和长任务恢复,而不只是写 prompt
  • 企业采购.会先看权限、部署方式、日志审计和可恢复性,再决定模型选型
  • 普通用户.最先接触到的变化还是桌面入口、浏览器入口和语音助手,但真正高频的场景仍集中在搜索、写作、会议、客服和文件处理
  • 创业团队.只做聊天壳会更难,做垂直工作流或执行基础设施会更容易讲清楚价值

真实约束还是老问题:权限、恢复、成本,决定谁能从演示走到生产

新线索虽然补强了基础设施和产品分化,但也让旧稿里的现实限制更明确了。行业今天不是没答案,而是答案都很工程化。

Agent 要真正进企业流程,绕不开三件事:

  • 权限边界.代理能看到什么、能改什么、出错谁负责
  • 长任务恢复.任务跑了几小时后中断,能否从状态点继续
  • 成本控制.持续调用模型、工具、浏览器和沙盒时,费用怎么压住

这也是为什么 OpenAI 要把 harness 与 compute/storage 分开,Cloudflare 要强调 durable execution,Hermes 要强调技能沉淀。它们都在试图减少“每次从零开始”的浪费,把代理从一次性演示工具变成可维护的软件系统。

但短期里,最容易被高估的仍然是“会做事”本身。会做一次,不等于能稳定复现;能跑通一条流程,不等于企业敢放开真实权限;能自动执行,也不等于成本结构能成立。历史上从 RPA 到低代码,自动化工具最后都得回到流程治理、审计和责任归属,Agent 也不会例外。

所以,这轮新信息带来的补强,不是把行业说得更热闹,而是把分工说得更清楚:模型继续进步,但接下来半年更稀缺的不是多一个榜单冠军,而是能把代理安全地跑进真实软件和真实组织的人。