大模型周末没出爆款，但代理基础设施开始真刀真枪落地

核心摘要 Summary

这次补充线索把旧稿里“重心从大模型转向代理操作系统”的判断，进一步坐实成了几条更具体的脉络：产品内原生工具调用、多代理编排、可复现实验环境，以及权限与审计优先级上升。
新增信息最关键的地方，不是哪家又做了一个 agent demo，而是 Figma、Anthropic、Nous、AI2、智谱把代理从聊天框、演示视频和单点 benchmark，往可接入、可评测、可约束的软件基础设施上推了一步。

3 月 24 日这波 AI 更新，表面上不热闹。没有像 GPT-4、Sora 那样一条消息就改写叙事的大模型发布，也没有一家厂商靠参数、榜单或视频演示占住头条。

但如果把分散的动作拼起来看，旧稿里提到的那条主线已经更清楚了：行业竞争点正在从“模型本身有多强”，转向“代理怎么接进现有软件、怎么被调度、怎么被约束、怎么被评测”。

和旧稿相比，这批新线索补强了四件事。第一，代理不再只是聊天框外挂，Figma、GitHub、Cursor 这类产品开始把工具调用直接嵌进原生工作流。第二，Anthropic 把重点放在 multi-agent harness 这类外层编排系统上，说明厂商自己也在承认：代理能不能用，关键不只在模型。第三，Nous、AI2、GenReasoning、智谱补的是运行时、环境和基准，意味着开放生态开始做“地基”，不再只晒单点分数。第四，LiteLLM 的供应链事件把旧稿里提过的安全问题推到了更前面：代理一旦开始自动读文件、调命令、连服务，攻击面会比普通聊天机器人大得多。

代理开始离开聊天框，进入产品原生界面

这次最能说明变化的，不是哪家模型分数提高了多少，而是 Figma、GitHub、Cursor 这类工具把 AI 编辑能力往产品内部挪。

Figma 开放测试 MCP server，让 AI 可以直接对设计画布做修改。GitHub 提到 Copilot CLI 等客户端可以接入，Cursor 也在跟进，把组件生成、页面修改这类动作直接嵌进团队已经在用的设计和开发流程。

这和旧稿里谈的“代理操作系统”相比，多了一层更现实的落点：代理不再只是一个会说话的入口，而是产品内的一个执行层。用户不一定先打开聊天框提要求，再复制结果回到工具里；很多操作会直接发生在原来的设计文件、组件库和工程环境里。

这对几类人影响很直接：

设计团队要开始讨论，AI 能不能直接改 Figma 文件，改完谁审核，历史版本怎么回滚
前端和平台团队要把设计系统、组件规范、权限策略做成 AI 能调的接口
企业采购不再只问模型效果，也会问现有工作流能不能无缝接进去

这里还有个新增判断，旧稿里讲得还不够具体：工具调用变成产品原生能力后，MCP、OpenAI 兼容 API、CLI 接口这类“连接层”会比单次对话体验更重要。因为企业真正买单的，不是一次生成得多惊艳，而是它能不能少切换工具、少复制粘贴、少造新流程。

Anthropic 押注多代理编排，说明难点已经从“会不会”变成“怎么管”

Anthropic 这次谈 multi-agent harness 和 computer use，不是小修小补，它等于把代理的核心问题从模型能力，挪到了外层系统设计上。

翻成更直接的话就是：行业开始接受一个现实，代理不是模型一升级就自然可用。要让它在复杂软件环境里做长链路任务，必须解决编排、重试、回滚、日志、人类审批、权限隔离这些问题。模型负责推理，系统负责把失误控制在能承受的范围内。

这也是新线索相对旧稿的重要补强。旧稿强调了“代理操作系统”的方向，但新信息给了更清楚的证据：头部模型公司自己已经把叙事重心从参数、能力展示，转向 orchestration 和 computer use 这种基础设施层的问题。

不过这里不能只看宣传词。computer use 现在仍有两个很实际的限制：

速度慢.点网页、切窗口、读界面，本来就比调 API 更耗时。
稳定性差.界面一改、按钮一换、权限一收紧，自动化流程就可能失效。

所以现阶段企业愿意接纳“会用电脑”的代理，不是因为它已经成熟，而是因为大量企业软件根本没有好用的 API。代理只能先像人一样操作界面，顶上这段接口空白。它更像过渡层，而不是最终形态。等 API、CLI、标准化动作接口补齐后，很多今天看起来很酷的 computer use 能力，重要性可能会下降。

开放生态在补三层地基：运行时、环境、评测

如果说产品公司在把代理嵌进工作流，开放生态这边做的是另一件更基础的事：把代理从 demo 拉回可复现、可比较、可维护的软件体系。

Nous Research 发布 Hermes Agent v0.4.0，一周合并 300 多个 PR，新增 OpenAI 兼容 Responses API 后端、上下文压缩、更多消息集成，还有一个很关键的设计：响应后的审查代理会判断哪些内容该进入长期记忆或沉淀成技能。

这条线索补强了旧稿里一个还不够展开的点：真实 agent 系统不是“回答完就结束”，而是要管理经验积累。记忆不是越多越好，关键是谁来筛、怎么留、留了之后会不会污染后续决策。Nous 的做法至少说明，开放运行时已经开始正面处理这个问题，而不是只展示“自主执行”有多炫。

AI2 开源 MolmoWeb，基于 Molmo 2 做浏览器代理，提供 4B 和 8B 模型版本，目标是把 web-agent 能力做成开放权重方案。GenReasoning 的 OpenReward 则提供 330 多个强化学习环境、450 万以上独特 RL 任务。智谱的 ZClawBench 覆盖 116 个真实世界 agent 任务。

把这些放在一起看，开放代理生态正在补齐三层：

层级	代表项目	解决的问题	现在的短板
运行时与编排	Hermes Agent v0.4.0	让代理可接入、可记忆、可扩展	权限模型和稳定性还要打磨
环境与任务服务	OpenReward、MolmoWeb	让代理有可重复训练和执行环境	和真实企业流程仍有距离
评测与基准	ZClawBench 等	让能力可以横向比较	benchmark 不能替代线上表现

旧稿已经判断行业会从比模型转向比系统，这批新线索把这个判断落得更具体：现在大家在补的不是一个万能 agent，而是 agent 需要的环境、任务、运行时和标准接口。

这和一年前的节奏差别很大。那时很多团队比的是“能不能订机票、能不能点外卖、能不能刷网页”，更像展示能力边界。现在更多团队开始承认，没有标准化环境服务、没有可复现实验、没有比较一致的接口层，代理研究很难沉淀成产品能力。

先落地的会是成本、权限和审计，不是最自由的自动化

新线索里还有两类信息，把旧稿里的现实约束拉得更紧。

一类是系统成本。vLLM 在 GTC 后披露 Model Runner V2、混合内存分配器等更新，多模态场景下声称可把 P99 吞吐提升到最高 2.5 倍。Hugging Face 也提到，经过 continuous batching 和 torch.compile 调优后，Transformers 在 8K 生成上的吞吐已经接近 vLLM 的 95%。

这类更新不太吸引眼球，但它们决定代理到底能不能在企业里跑起来。因为代理不是一次调用，而是多轮、多工具、多状态切换。吞吐、延迟、内存占用一旦压不下来，哪怕模型效果不错，整套系统也很难被大规模部署。

另一类是安全约束，而且这次比旧稿里更刺耳。LiteLLM 1.82.8 在 PyPI 上被植入恶意载荷，目标包括窃取凭据并在环境中传播。开发者提醒的风险范围也不只云 key，而是 SSH key、Kubernetes 配置、CI/CD secrets、钱包、shell 历史这些整套开发环境资产。

这件事的重要性不在于单个包出问题，而在于它把代理时代的风险结构暴露出来了。过去依赖投毒主要威胁构建链路，现在代理工具会主动读文件、调命令、访问外部服务，权限一放宽，整个工作环境都可能变成上下文，也就都变成攻击面。

所以真正会先落地的，不会是“最自由的代理”，而是“最会收权限的代理”。具体到组织里，会变成几条很实际的动作：

企业 IT 会把策略从“代理能做什么”改成“代理默认不能做什么”
平台团队会优先投入沙箱、日志、审批流、回滚和依赖审计
开发者会被要求统一 MCP、OpenAI 兼容 API、密钥管理和工具白名单
管理层会更看重出问题后能不能追责，而不是演示阶段跑得多顺

这也是新来源相对旧稿最尖锐的补强之一：代理的上限由模型决定，但代理能不能进生产，先看安全底线。没有权限控制、回滚机制和可审计流程，再强的模型也很难拿到企业环境的默认信任。

大模型周末没出爆款，但代理基础设施开始真刀真枪落地

焦点转向代理系统

脱离聊天框

头部工具跟进

连接层变核心

外层编排优先

过渡形态

当前短板

补齐三层地基

运行时与编排

环境与任务

评测与基准

安全优先落地

系统成本承压

攻击面扩大

权限收紧趋势

代理开始离开聊天框，进入产品原生界面

Anthropic 押注多代理编排，说明难点已经从“会不会”变成“怎么管”

开放生态在补三层地基：运行时、环境、评测

先落地的会是成本、权限和审计，不是最自由的自动化