3 月 24 日这波 AI 更新,表面上不热闹。没有像 GPT-4、Sora 那样一条消息就改写叙事的大模型发布,也没有一家厂商靠参数、榜单或视频演示占住头条。
但如果把分散的动作拼起来看,旧稿里提到的那条主线已经更清楚了:行业竞争点正在从“模型本身有多强”,转向“代理怎么接进现有软件、怎么被调度、怎么被约束、怎么被评测”。
和旧稿相比,这批新线索补强了四件事。第一,代理不再只是聊天框外挂,Figma、GitHub、Cursor 这类产品开始把工具调用直接嵌进原生工作流。第二,Anthropic 把重点放在 multi-agent harness 这类外层编排系统上,说明厂商自己也在承认:代理能不能用,关键不只在模型。第三,Nous、AI2、GenReasoning、智谱补的是运行时、环境和基准,意味着开放生态开始做“地基”,不再只晒单点分数。第四,LiteLLM 的供应链事件把旧稿里提过的安全问题推到了更前面:代理一旦开始自动读文件、调命令、连服务,攻击面会比普通聊天机器人大得多。
代理开始离开聊天框,进入产品原生界面
这次最能说明变化的,不是哪家模型分数提高了多少,而是 Figma、GitHub、Cursor 这类工具把 AI 编辑能力往产品内部挪。
Figma 开放测试 MCP server,让 AI 可以直接对设计画布做修改。GitHub 提到 Copilot CLI 等客户端可以接入,Cursor 也在跟进,把组件生成、页面修改这类动作直接嵌进团队已经在用的设计和开发流程。
这和旧稿里谈的“代理操作系统”相比,多了一层更现实的落点:代理不再只是一个会说话的入口,而是产品内的一个执行层。用户不一定先打开聊天框提要求,再复制结果回到工具里;很多操作会直接发生在原来的设计文件、组件库和工程环境里。
这对几类人影响很直接:
- 设计团队要开始讨论,AI 能不能直接改 Figma 文件,改完谁审核,历史版本怎么回滚
- 前端和平台团队要把设计系统、组件规范、权限策略做成 AI 能调的接口
- 企业采购不再只问模型效果,也会问现有工作流能不能无缝接进去
这里还有个新增判断,旧稿里讲得还不够具体:工具调用变成产品原生能力后,MCP、OpenAI 兼容 API、CLI 接口这类“连接层”会比单次对话体验更重要。因为企业真正买单的,不是一次生成得多惊艳,而是它能不能少切换工具、少复制粘贴、少造新流程。
Anthropic 押注多代理编排,说明难点已经从“会不会”变成“怎么管”
Anthropic 这次谈 multi-agent harness 和 computer use,不是小修小补,它等于把代理的核心问题从模型能力,挪到了外层系统设计上。
翻成更直接的话就是:行业开始接受一个现实,代理不是模型一升级就自然可用。要让它在复杂软件环境里做长链路任务,必须解决编排、重试、回滚、日志、人类审批、权限隔离这些问题。模型负责推理,系统负责把失误控制在能承受的范围内。
这也是新线索相对旧稿的重要补强。旧稿强调了“代理操作系统”的方向,但新信息给了更清楚的证据:头部模型公司自己已经把叙事重心从参数、能力展示,转向 orchestration 和 computer use 这种基础设施层的问题。
不过这里不能只看宣传词。computer use 现在仍有两个很实际的限制:
- 速度慢.点网页、切窗口、读界面,本来就比调 API 更耗时。
- 稳定性差.界面一改、按钮一换、权限一收紧,自动化流程就可能失效。
所以现阶段企业愿意接纳“会用电脑”的代理,不是因为它已经成熟,而是因为大量企业软件根本没有好用的 API。代理只能先像人一样操作界面,顶上这段接口空白。它更像过渡层,而不是最终形态。等 API、CLI、标准化动作接口补齐后,很多今天看起来很酷的 computer use 能力,重要性可能会下降。
开放生态在补三层地基:运行时、环境、评测
如果说产品公司在把代理嵌进工作流,开放生态这边做的是另一件更基础的事:把代理从 demo 拉回可复现、可比较、可维护的软件体系。
Nous Research 发布 Hermes Agent v0.4.0,一周合并 300 多个 PR,新增 OpenAI 兼容 Responses API 后端、上下文压缩、更多消息集成,还有一个很关键的设计:响应后的审查代理会判断哪些内容该进入长期记忆或沉淀成技能。
这条线索补强了旧稿里一个还不够展开的点:真实 agent 系统不是“回答完就结束”,而是要管理经验积累。记忆不是越多越好,关键是谁来筛、怎么留、留了之后会不会污染后续决策。Nous 的做法至少说明,开放运行时已经开始正面处理这个问题,而不是只展示“自主执行”有多炫。
AI2 开源 MolmoWeb,基于 Molmo 2 做浏览器代理,提供 4B 和 8B 模型版本,目标是把 web-agent 能力做成开放权重方案。GenReasoning 的 OpenReward 则提供 330 多个强化学习环境、450 万以上独特 RL 任务。智谱的 ZClawBench 覆盖 116 个真实世界 agent 任务。
把这些放在一起看,开放代理生态正在补齐三层:
| 层级 | 代表项目 | 解决的问题 | 现在的短板 |
|---|---|---|---|
| 运行时与编排 | Hermes Agent v0.4.0 | 让代理可接入、可记忆、可扩展 | 权限模型和稳定性还要打磨 |
| 环境与任务服务 | OpenReward、MolmoWeb | 让代理有可重复训练和执行环境 | 和真实企业流程仍有距离 |
| 评测与基准 | ZClawBench 等 | 让能力可以横向比较 | benchmark 不能替代线上表现 |
旧稿已经判断行业会从比模型转向比系统,这批新线索把这个判断落得更具体:现在大家在补的不是一个万能 agent,而是 agent 需要的环境、任务、运行时和标准接口。
这和一年前的节奏差别很大。那时很多团队比的是“能不能订机票、能不能点外卖、能不能刷网页”,更像展示能力边界。现在更多团队开始承认,没有标准化环境服务、没有可复现实验、没有比较一致的接口层,代理研究很难沉淀成产品能力。
先落地的会是成本、权限和审计,不是最自由的自动化
新线索里还有两类信息,把旧稿里的现实约束拉得更紧。
一类是系统成本。vLLM 在 GTC 后披露 Model Runner V2、混合内存分配器等更新,多模态场景下声称可把 P99 吞吐提升到最高 2.5 倍。Hugging Face 也提到,经过 continuous batching 和 torch.compile 调优后,Transformers 在 8K 生成上的吞吐已经接近 vLLM 的 95%。
这类更新不太吸引眼球,但它们决定代理到底能不能在企业里跑起来。因为代理不是一次调用,而是多轮、多工具、多状态切换。吞吐、延迟、内存占用一旦压不下来,哪怕模型效果不错,整套系统也很难被大规模部署。
另一类是安全约束,而且这次比旧稿里更刺耳。LiteLLM 1.82.8 在 PyPI 上被植入恶意载荷,目标包括窃取凭据并在环境中传播。开发者提醒的风险范围也不只云 key,而是 SSH key、Kubernetes 配置、CI/CD secrets、钱包、shell 历史这些整套开发环境资产。
这件事的重要性不在于单个包出问题,而在于它把代理时代的风险结构暴露出来了。过去依赖投毒主要威胁构建链路,现在代理工具会主动读文件、调命令、访问外部服务,权限一放宽,整个工作环境都可能变成上下文,也就都变成攻击面。
所以真正会先落地的,不会是“最自由的代理”,而是“最会收权限的代理”。具体到组织里,会变成几条很实际的动作:
- 企业 IT 会把策略从“代理能做什么”改成“代理默认不能做什么”
- 平台团队会优先投入沙箱、日志、审批流、回滚和依赖审计
- 开发者会被要求统一 MCP、OpenAI 兼容 API、密钥管理和工具白名单
- 管理层会更看重出问题后能不能追责,而不是演示阶段跑得多顺
这也是新来源相对旧稿最尖锐的补强之一:代理的上限由模型决定,但代理能不能进生产,先看安全底线。没有权限控制、回滚机制和可审计流程,再强的模型也很难拿到企业环境的默认信任。
