IBM Research 这篇发在 Hugging Face 上的文章,最有意思的地方不是又讲了一遍 agent,而是把企业 AI 的老问题摊开了:会聊天不够,能进流程、守规矩、算清账,才算能用。

它提出的关键词叫 agent logic。简单说,就是运行在 agent harness 里的软件原语,包括知识图谱、算法、程序分析库。它们不替代 LLM,而是缩小模型要看的上下文,引导模型按业务流程行动。

企业工作流不是一次问答。它动态、长周期,连着 API、数据库、服务,还被业务政策和监管框住。让模型在里面自由探索,听起来聪明,落到 CIO 的账本上,常常就是成本、延迟和责任风险一起涨。

IBM 说的 agent logic,到底是什么

IBM 的口径很明确:LLM 仍然重要,但不能裸奔。

所谓 agent logic,不是再造一个更大的模型,而是在模型外面加工程约束。知识图谱负责把系统关系讲清楚。程序分析库负责理解代码结构。算法规划负责拆任务、排步骤、控制调用。

这套东西的目标只有一个:别让 LLM 硬吞整个企业上下文。

IBM 给了几组案例,基本都围绕大型企业最难啃的地方:遗留代码、测试、事故响应、合规。

场景IBM 给出的做法数据锚点说明
遗留代码理解程序分析 + 预索引结构化表示token 消耗约低 30×面向 Cobol / PL/1、主机和关键系统
测试生成 Aster程序分析 + 子智能体修错、补覆盖覆盖率提升 20%-45%,最高 15× 更低 token已在 75+ IBM CIO Java 应用预生产运行
事故调查 I3知识图谱 + 可观测性编排最高 4.0× 优于 ReAct用于根因分析、IT 运维场景
合规自动化算法拆解 + 自适应规划 + 多智能体成功率可从个位数到最高 80%+面向控制项、评估、整改、证据生成

这些数字不能直接读成行业通用结论。多数来自 IBM 自有产品、内部试点或特定基准。供应商写企业文章,天然带产品叙事。

但这篇文章仍然有价值。它至少把问题讲回了工程现场:上下文不是越大越好,agent 不是越自由越好,token 降低也不等于总成本一定降低。

知识图谱要建。程序分析要接。权限要管。流程要改。维护也要钱。

账不会消失,只是从推理账单挪到工程账本。

CIO 真要看什么:别只看 demo,要看约束

这件事最该影响两类人:企业 CIO,以及负责开发、运维、合规的一线团队。

CIO 的动作应该更保守一点。不是停止采购,而是把采购节奏从“看模型演示”改成“看流程证明”。如果供应商只能展示单点任务成功率,却说不清数据接入、权限控制、审计追踪和失败回滚,这类项目就该延后进入核心系统。

开发和运维团队的动作更具体。评估 agent 工具时,不要只问“能不能自动写代码、自动查故障”。要问它能不能理解现有系统边界,能不能少打扰生产环境,能不能在出错时留下可追责记录。

一张更实用的检查表,应该长这样:

检查项该问的问题不合格信号
数据接入需要接哪些库、日志、代码仓、工单系统只能靠人工复制粘贴上下文
权限控制agent 能调用哪些 API,谁审批默认高权限,边界说不清
审计追踪每次调用、判断、修改能否留痕结果可见,过程不可查
失败回滚出错后能否暂停、撤销、降级只能重跑,不能恢复
长期成本token、集成、人力、维护谁买单只报推理成本,不报工程成本
领域知识知识图谱、规则库谁维护试点靠专家喂,规模化没人管

这里的分水岭很硬。

能通过这张表的,才像企业 AI。过不了的,多半只是企业幻灯片。

我不太买账那种“多智能体越多越自动化”的说法。企业现场不是沙盒。一个 agent 多调一次接口,可能多一次权限风险;多走一步链路,可能多一个审计问题;多生成一段代码,可能多一个维护包袱。

模型能力当然要看。但企业更该看模型被什么约束。

企业 AI 不缺大脑,缺可控的手脚和账本

过去两年,AI 讨论被模型能力牵着走。上下文多长,推理多强,benchmark 多漂亮。

这些都重要。IBM 也没有说 LLM 不重要。它说的是另一件更现实的事:模型再强,也得有人告诉它看哪份数据、调用哪个服务、遵守哪条规则、什么时候停手。

这其实是企业软件的老问题换了新皮。

ERP、数据库、中间件、云平台进企业时,也不是靠一个“聪明核心”横扫一切。真正难的,一直是流程建模、权限边界、数据质量、责任归属。

“天下熙熙,皆为利来。”落到企业 IT 里,就是每一步都要问:谁受益,谁担责,谁付维护费。

IBM 的位置也说明了这点。它不是最会讲前沿模型故事的公司,但它长期待在大型企业最麻烦的地方:主机、遗留代码、运维、合规、关键业务系统。

所以这篇文章商业味很重,现实味也很重。

它给出的提醒很直接:企业 AI 的规模化,不会靠“把所有东西塞进更大的上下文窗口”解决。上下文越大,成本、延迟、幻觉和治理压力也会跟着长。

模型像发动机。agent logic 更像轨道、信号灯和调度系统。

铁路时代也是这样。蒸汽机重要,但真正让铁路变成基础设施的,是轨距、时刻表、调度规则、维护体系和事故责任。不完全一样,但相似处在这里:单点技术突破之后,决定规模化的是秩序。

接下来观察这类企业 AI 项目,不要只看发布会和单次基准。

看三件事就够了:能不能接进真实系统,能不能被审计和回滚,能不能在长期使用里算清总账。

模型看着更强,产品反而可能更虚。能把模型关进流程、数据、规则和成本约束里,才是企业 AI 接下来的硬门槛。