IBM Research 这篇发在 Hugging Face 上的文章,最有意思的地方不是又讲了一遍 agent,而是把企业 AI 的老问题摊开了:会聊天不够,能进流程、守规矩、算清账,才算能用。
它提出的关键词叫 agent logic。简单说,就是运行在 agent harness 里的软件原语,包括知识图谱、算法、程序分析库。它们不替代 LLM,而是缩小模型要看的上下文,引导模型按业务流程行动。
企业工作流不是一次问答。它动态、长周期,连着 API、数据库、服务,还被业务政策和监管框住。让模型在里面自由探索,听起来聪明,落到 CIO 的账本上,常常就是成本、延迟和责任风险一起涨。
IBM 说的 agent logic,到底是什么
IBM 的口径很明确:LLM 仍然重要,但不能裸奔。
所谓 agent logic,不是再造一个更大的模型,而是在模型外面加工程约束。知识图谱负责把系统关系讲清楚。程序分析库负责理解代码结构。算法规划负责拆任务、排步骤、控制调用。
这套东西的目标只有一个:别让 LLM 硬吞整个企业上下文。
IBM 给了几组案例,基本都围绕大型企业最难啃的地方:遗留代码、测试、事故响应、合规。
| 场景 | IBM 给出的做法 | 数据锚点 | 说明 |
|---|---|---|---|
| 遗留代码理解 | 程序分析 + 预索引结构化表示 | token 消耗约低 30× | 面向 Cobol / PL/1、主机和关键系统 |
| 测试生成 Aster | 程序分析 + 子智能体修错、补覆盖 | 覆盖率提升 20%-45%,最高 15× 更低 token | 已在 75+ IBM CIO Java 应用预生产运行 |
| 事故调查 I3 | 知识图谱 + 可观测性编排 | 最高 4.0× 优于 ReAct | 用于根因分析、IT 运维场景 |
| 合规自动化 | 算法拆解 + 自适应规划 + 多智能体 | 成功率可从个位数到最高 80%+ | 面向控制项、评估、整改、证据生成 |
这些数字不能直接读成行业通用结论。多数来自 IBM 自有产品、内部试点或特定基准。供应商写企业文章,天然带产品叙事。
但这篇文章仍然有价值。它至少把问题讲回了工程现场:上下文不是越大越好,agent 不是越自由越好,token 降低也不等于总成本一定降低。
知识图谱要建。程序分析要接。权限要管。流程要改。维护也要钱。
账不会消失,只是从推理账单挪到工程账本。
CIO 真要看什么:别只看 demo,要看约束
这件事最该影响两类人:企业 CIO,以及负责开发、运维、合规的一线团队。
CIO 的动作应该更保守一点。不是停止采购,而是把采购节奏从“看模型演示”改成“看流程证明”。如果供应商只能展示单点任务成功率,却说不清数据接入、权限控制、审计追踪和失败回滚,这类项目就该延后进入核心系统。
开发和运维团队的动作更具体。评估 agent 工具时,不要只问“能不能自动写代码、自动查故障”。要问它能不能理解现有系统边界,能不能少打扰生产环境,能不能在出错时留下可追责记录。
一张更实用的检查表,应该长这样:
| 检查项 | 该问的问题 | 不合格信号 |
|---|---|---|
| 数据接入 | 需要接哪些库、日志、代码仓、工单系统 | 只能靠人工复制粘贴上下文 |
| 权限控制 | agent 能调用哪些 API,谁审批 | 默认高权限,边界说不清 |
| 审计追踪 | 每次调用、判断、修改能否留痕 | 结果可见,过程不可查 |
| 失败回滚 | 出错后能否暂停、撤销、降级 | 只能重跑,不能恢复 |
| 长期成本 | token、集成、人力、维护谁买单 | 只报推理成本,不报工程成本 |
| 领域知识 | 知识图谱、规则库谁维护 | 试点靠专家喂,规模化没人管 |
这里的分水岭很硬。
能通过这张表的,才像企业 AI。过不了的,多半只是企业幻灯片。
我不太买账那种“多智能体越多越自动化”的说法。企业现场不是沙盒。一个 agent 多调一次接口,可能多一次权限风险;多走一步链路,可能多一个审计问题;多生成一段代码,可能多一个维护包袱。
模型能力当然要看。但企业更该看模型被什么约束。
企业 AI 不缺大脑,缺可控的手脚和账本
过去两年,AI 讨论被模型能力牵着走。上下文多长,推理多强,benchmark 多漂亮。
这些都重要。IBM 也没有说 LLM 不重要。它说的是另一件更现实的事:模型再强,也得有人告诉它看哪份数据、调用哪个服务、遵守哪条规则、什么时候停手。
这其实是企业软件的老问题换了新皮。
ERP、数据库、中间件、云平台进企业时,也不是靠一个“聪明核心”横扫一切。真正难的,一直是流程建模、权限边界、数据质量、责任归属。
“天下熙熙,皆为利来。”落到企业 IT 里,就是每一步都要问:谁受益,谁担责,谁付维护费。
IBM 的位置也说明了这点。它不是最会讲前沿模型故事的公司,但它长期待在大型企业最麻烦的地方:主机、遗留代码、运维、合规、关键业务系统。
所以这篇文章商业味很重,现实味也很重。
它给出的提醒很直接:企业 AI 的规模化,不会靠“把所有东西塞进更大的上下文窗口”解决。上下文越大,成本、延迟、幻觉和治理压力也会跟着长。
模型像发动机。agent logic 更像轨道、信号灯和调度系统。
铁路时代也是这样。蒸汽机重要,但真正让铁路变成基础设施的,是轨距、时刻表、调度规则、维护体系和事故责任。不完全一样,但相似处在这里:单点技术突破之后,决定规模化的是秩序。
接下来观察这类企业 AI 项目,不要只看发布会和单次基准。
看三件事就够了:能不能接进真实系统,能不能被审计和回滚,能不能在长期使用里算清总账。
模型看着更强,产品反而可能更虚。能把模型关进流程、数据、规则和成本约束里,才是企业 AI 接下来的硬门槛。
