IBM Research 6 月 23 日开源了 CUGA。它的定位不是大模型,也不是托管云服务,而是一个企业级 Agent harness / runtime。

开发者可以通过 pip install cuga 使用它。核心写法也不复杂:创建 CugaAgent,传入模型、工具列表、special_instructions,再用 .cuga 目录保存状态和策略。配套的 cuga-apps 提供约 24 个可运行示例,多数是单文件 FastAPI 应用。

这件事有意思的地方在于,IBM 没有把重点放在“模型更聪明”。它押的是另一件更脏、更累、也更企业化的事:Agent 真要进业务系统,缺的是一条可治理的工程管线。

CUGA 解决的是 Agent 管线,不是模型能力

企业做 Agent,第一次跑通通常不难。难的是长任务不丢状态,工具失败后能恢复,高风险操作能审批,输出能按格式落库。

CUGA 的价值就在这里。模型能力交给底层 LLM,应用侧把规划、状态、工具调用、错误处理、策略治理和多 Agent 扩展交给 harness。

IBM Cloud advisor 示例能看出它的最小开发面:一个本地工具 search_ibm_catalog 查询 IBM Cloud Global Catalog;一组通过 MCP 加载的 web 工具;一段要求“推荐前必须查目录、不要编造服务名”的系统提示词;再用 FastAPI 暴露 /ask 和状态查询接口。

这不是“少写几行代码”的问题。它更像把每个企业团队都会重复造的脚手架,沉到一个可配置运行时里。

评估点CUGA 的做法对团队的实际影响
安装入口pip install cuga,使用 CugaAgent更像引入库,而不是迁移到重框架
开发面模型、工具列表、special_instructions.cuga 状态目录业务团队主要写工具、提示词和 UI
工具来源inline Python、MCP、OpenAPI、LangChain既能接内部 API,也能复用外部工具
示例起点Cloud advisor、movie recommender 等约 24 个应用适合复制改造,不等于全部可投产
状态与策略存放在 .cuga便于和应用代码一起管理、审查和迭代

公共 MCP 服务器还提供 web、知识、地理天气、金融等通用能力。对企业团队来说,这个设计很实用:通用工具不必每个项目重写,业务差异留给内联函数、OpenAPI 接口和提示词处理。

生产化的门槛在治理,不在 Demo 跑通

我更在意的是 CUGA 对治理的处理。

它内置 Intent Guard、Tool Approval、Tool Guide、Playbook、Output Formatter 和 CustomPolicy。这些策略也放在 .cuga 中。危险 Git 参数可以在意图阶段拦截;高风险工具调用可以要求人工批准;最终输出也能被约束成指定格式。

这和常见 Agent 开发栈形成了一个清楚对比。LangChain、LlamaIndex 这类生态更大,组件更多,适合拼能力。但企业上线时,审批、审计、策略、状态约定往往还要自己补。

CUGA 的取舍更明确:少一些“万物皆可接”的自由度,多一些运行时约束。利在可控,代价是团队要接受它的状态模型、策略模型和调试方式。

还有一个细节很关键:工具返回值的 envelope 约定。

成功返回 {"ok": true, "data": ...}。失败返回 {"ok": false, "code": ..., "error": ...}。这看起来像格式问题,其实是 Agent 稳定性问题。

裸异常最容易打断规划。统一失败语义后,规划器才有机会选择重试、跳过、换工具或改路径。小处见大,这类约定比一段漂亮 Prompt 更接近生产系统。

谁该动手试,谁该先观望

最相关的不是普通用户,而是两类人。

一类是企业 AI 应用开发者。你如果正在做内部顾问、运维助手、文档问答、销售线索分析这类应用,可以从 cuga-apps 里的 Cloud advisor、movie recommender 等样板改起。动作很具体:先把一个低风险场景接进 CUGA,验证工具调用、状态保存和输出格式是否能省掉自研胶水。

另一类是 Agent 平台负责人。你更应该拿 CUGA 对照自家平台里的三块成本:工具注册、审批治理、状态与审计。如果团队已经在 LangChain 或 LlamaIndex 上搭了很多内部组件,不必急着迁移。更现实的做法是做一次小范围 PoC,看 CUGA 的 .cuga 策略、Tool Approval 和 envelope 约定,能不能替代你们正在维护的那层编排代码。

限制也要说清楚。

CUGA 不是“无需开发”。用户仍要定义工具、提示词、策略和应用 UI。权限边界、数据访问、私有部署、企业内部 API 的安全接入,也不会因为用了 harness 就自动解决。

cuga-apps 也不是成品应用商店。原文把示例分成 ship-ready、for-later 和 exploratory,这说明它们更像脚手架和参考库。拿来改可以,直接押生产要谨慎。

还有一些目前看不清的点:许可证细节、复杂企业环境里的部署边界、和既有 Agent 栈的迁移成本,都需要回到仓库和实际 PoC 里核对。原文提到 AppWorld、WebArena 表现,我会把它当作工程能力线索,而不是直接等同于企业现场的稳定性保证。

接下来最该看三件事。

一是企业内部 API 能不能安全接入这套工具体系。二是多 Agent 与 A2A 委派在复杂任务里能不能保持可调试。三是自托管场景下,策略、状态、日志和权限能不能被平台团队真正管起来。

如果这三点站得住,CUGA 的位置就不是“又一个 Agent 框架”。它更像企业 Agent 从样板间走向工地时,需要补上的那根骨架。