4月15日前后,AI圈没有出现那种会立刻刷屏的超级发布会,但方向比很多热闹产品秀更清楚:行业正在把注意力从模型参数、排行榜和演示视频,转回代理真正落地要面对的几件事——执行环境、长期状态、权限边界,以及用户入口。
旧稿已经指出,代理不再只拼模型,开始拼系统。新线索把这个判断补得更完整:OpenAI不只是给 Agents SDK 加功能,而是把 agent harness 与计算、存储拆开;Cloudflare 不只是接入一个 SDK,而是在把“可持续执行 + 沙盒代码 + 浏览器自动化 + 语音”打成一整套运行时;Hermes 也不只是另一个会调工具的 Agent,它把任务沉淀成 Skill,说明工作流复用开始成为产品分界线。这些信息比“又发了一个模型”更接近接下来半年的真实竞争。
OpenAI 把 Agent 底座拆开,新增信息不在 API,而在运行时被单独定义
这次最有价值的新信息,是 OpenAI 明确把 agent harness 从 compute/storage 中拆出来。旧稿谈的是“代理开始拼系统”,新线索把系统拆成了更具体的三层:编排层、状态层、执行层。
这不是字面上的架构调整。它意味着 OpenAI 默认了一件事:Agent 不会长期只活在模型接口里,而是要跑在一个可恢复、可追踪、可隔离的环境中。围绕这套拆分,OpenAI 还继续补上了 durable agents 需要的基础原语,包括:
- 文件使用
- 电脑使用
- memory
- compaction
- 长时任务执行
这里真正新增的判断,是“Agent harness”开始像 Web 框架中的控制层,而不是把模型、运行、存储都绑死在一家平台里。OpenAI 还把这层开源,并支持通过合作方沙盒来执行任务。Cloudflare、Modal、Vercel、E2B 等几乎同步接入,说明行业对一件事已经达成共识:代理不能只有推理能力,还要有一个受控执行环境。
这比去年的 Agent Demo 潮现实得多。那一轮演示很多都能点按钮、调工具、自动填表,但进生产环境后很快撞上同一组问题:
- 权限怎么管
- 任务中断后怎么恢复
- 状态丢了怎么办
- 成本怎么收敛
- 审计日志怎么留
OpenAI 这次的变化,等于把差异化空间让给了运行时和基础设施提供方。对开发者来说,新增价值不只是“更开放”,而是少押注一个封闭平台;对平台公司来说,新增机会也不只在模型调用费,而在沙盒、状态存储、工作区、日志、恢复、权限、调度这些更像企业预算科目的东西。
Cloudflare 把平台型 Agent 讲得更具体:不是聊天框,而是一套可执行系统
旧稿里如果只是说“代理开始拼系统”,那还偏抽象。新线索把这件事落到了 Cloudflare 的产品组合上。
Cloudflare 这轮动作很密,核心不是单点功能,而是把 Agent 的基础设施版图一次摆出来:
- Project Think.下一代 Agents SDK,强调 durable execution 和 sandboxed code
- Agent Lee.一个提示词驱动的 UI Agent,在沙盒化 TypeScript 环境里执行操作
- 实时语音管线.把语音输入输出直接接入代理链路
- 浏览器自动化工具.补齐网页执行入口
这些更新合起来,说明 Cloudflare 在押的不是“更像聊天机器人”的 Agent,而是“能持续跑任务的软件执行体”。Project Think 对应的是运行时,Agent Lee 对应的是控制台和 UI 层,浏览器自动化对应的是网页软件入口,语音管线对应的是新的交互层。
这比单纯说“支持 Agent”更具体,也比很多模型发布更有现实感。因为企业真正在乎的不是模型会不会说,而是代理能不能:
- 在隔离环境里跑代码
- 留下可审计记录
- 跨会话保留状态
- 遇到失败后恢复执行
- 接入浏览器、后台、文件系统和语音流
如果说 OpenAI 这次是在把 Agent 框架拆开,Cloudflare 做的就是把拆出来的那层生意做厚。这个补强很关键。它说明“平台型 Agent”已经不是抽象概念,而是一条明确的产品路线:卖运行时、卖执行边界、卖企业入口。
Hermes 把另一条路说清楚了:专业代理和 GUI 助手不是一回事
新线索还补强了一个旧稿里值得展开的对照:Hermes 与 OpenClaw 代表的不是同一类产品。
社区把两者并排讨论,分界点不在“会不会用工具”,而在任务完成后能不能沉淀为可复用能力。Hermes 更强调 persistent skill formation,也就是在一次次完成工作流后,把流程保存为后续可调用的 Skill;OpenClaw 更像是 GUI-first assistant,重点是直接操作界面、帮用户完成当前动作。
这两个方向服务的人群不同:
| 路线 | 代表产品 | 核心能力 | 更适合谁 | 主要限制 |
|---|---|---|---|---|
| 平台型 Agent 基础设施 | OpenAI Agents SDK、Cloudflare Project Think | 编排、持久执行、沙盒、状态与日志 | 开发者、企业平台团队 | 集成复杂,工程门槛高 |
| 工作流型专业代理 | Hermes | 从完成过的任务里形成 Skill,复用流程 | 高频办公自动化团队、专业用户 | 权限治理和稳定性仍待验证 |
| GUI/入口型助手 | OpenClaw、Gemini for Mac、桌面 AI 助手 | 更快接触用户,依赖桌面或浏览器入口 | 普通用户、轻量团队 | 复用性弱,长期价值依赖高频场景 |
Hermes 的一个代表性描述很能说明差异:它可以自动回填追踪数据、更新 cron 任务,并把完整流程保存成可复用技能。这个能力指向的不是“帮你做一次”,而是“替你形成一个可反复执行的工作模板”。
这也是新线索对旧稿的重要补强:过去大家容易把 Agent 都归成一个篮子,区别只是模型强弱、桌面还是网页、能不能调工具。现在分化已经更具体了。一类在卖底层执行系统,一类在卖工作流复用,一类在卖入口和交互。它们会竞争,但采购逻辑、产品指标和用户预期都不一样。
Google 继续补入口,语音开始从功能模块变成代理默认界面
同一时间线里,Google 推进 Gemini for Mac、Personal Intelligence 和 Gemini 3.1 Flash TTS。这里不是要把 Google 写成另一条平行新闻,而是要补足旧稿里“入口竞争”的那一半。
OpenAI 和 Cloudflare 主要在回答“代理怎么落地”,Google 更像在回答“模型怎么进入日常使用”。Gemini for Mac 用原生 Swift 开发,支持快捷唤起、屏幕共享和本地文件上下文,单看功能并不神奇,和 ChatGPT 桌面端、Raycast 类产品有重叠。但它传递出的变化很实际:Gemini 不再只是一组模型,而是在桌面、Chrome 和 Google 账户体系里找固定入口。
另一个值得补强的点是语音。Gemini 3.1 Flash TTS 加入了 Audio Tags、70多种语言、多说话人、非语言提示和 SynthID 水印,在第三方语音评测里也拿到靠前位置。把这件事和 Cloudflare 的实时语音管线放在一起看,会发现一个更具体的趋势:语音开始从单独的 AI 功能,变成 Agent 的默认输入输出层。
这对不同人群的影响并不一样:
- 开发者.要更早处理语音流、浏览器操作、沙盒执行和长任务恢复,而不只是写 prompt
- 企业采购.会先看权限、部署方式、日志审计和可恢复性,再决定模型选型
- 普通用户.最先接触到的变化还是桌面入口、浏览器入口和语音助手,但真正高频的场景仍集中在搜索、写作、会议、客服和文件处理
- 创业团队.只做聊天壳会更难,做垂直工作流或执行基础设施会更容易讲清楚价值
真实约束还是老问题:权限、恢复、成本,决定谁能从演示走到生产
新线索虽然补强了基础设施和产品分化,但也让旧稿里的现实限制更明确了。行业今天不是没答案,而是答案都很工程化。
Agent 要真正进企业流程,绕不开三件事:
- 权限边界.代理能看到什么、能改什么、出错谁负责
- 长任务恢复.任务跑了几小时后中断,能否从状态点继续
- 成本控制.持续调用模型、工具、浏览器和沙盒时,费用怎么压住
这也是为什么 OpenAI 要把 harness 与 compute/storage 分开,Cloudflare 要强调 durable execution,Hermes 要强调技能沉淀。它们都在试图减少“每次从零开始”的浪费,把代理从一次性演示工具变成可维护的软件系统。
但短期里,最容易被高估的仍然是“会做事”本身。会做一次,不等于能稳定复现;能跑通一条流程,不等于企业敢放开真实权限;能自动执行,也不等于成本结构能成立。历史上从 RPA 到低代码,自动化工具最后都得回到流程治理、审计和责任归属,Agent 也不会例外。
所以,这轮新信息带来的补强,不是把行业说得更热闹,而是把分工说得更清楚:模型继续进步,但接下来半年更稀缺的不是多一个榜单冠军,而是能把代理安全地跑进真实软件和真实组织的人。
