ITBench-AA 给企业 AI 运维泼了盆冷水：最强模型也没到 50%

核心摘要 Summary

Artificial Analysis 与 IBM Software Innovation Lab 推出 ITBench-AA，首批用 59 个 Kubernetes SRE 事故诊断任务评测企业 IT 智能体。
结果不适合只看排行榜：Claude Opus 4.7 最高 47%，GPT-5.5 46%，Qwen3.7 Max 42%，所有前沿模型都低于 50%。
这说明在这个基准和评分规则下，AI Agent 已经能辅助排障，但离无人值守的企业级运维还差一段可靠性。

一个 SRE 事故诊断基准里，最强模型只拿到 47%。

这不是小模型翻车，也不是玩具题。Artificial Analysis 与 IBM Software Innovation Lab 发布的 ITBench-AA，基于 IBM ITBench 数据集，首批测的是 Kubernetes 场景下的 SRE 事故诊断。

59 个任务里，有 40 个公开任务，19 个全新的 held-out 任务。Claude Opus 4.7 得分 47%，GPT-5.5 为 46%，Qwen3.7 Max 为 42%。所有前沿模型都没过 50%。

我更在意的不是谁排第一，而是这个结果给企业提了个醒：AI Agent 可以进运维流程，但现在还不适合被当成无人值守的 SRE。

它测的不是会不会聊天，而是能不能找准根因

ITBench-AA 的首批任务很具体：Kubernetes 事故诊断。

模型拿到的不是一道文字问答题，而是一组事故快照。里面包括告警、事件、链路追踪、指标、日志和应用拓扑。它们被放在沙箱文件系统里。

模型通过统一的开源 Stirrup harness 执行 shell 命令，最多跑 100 轮。最后，它要提交一组 Kubernetes 根因实体，比如 Deployment、Service、Pod 或 NetworkPolicy。

这里有一个关键限制：本次评测尽量固定了智能体运行框架。所有模型用同一套 Stirrup harness。也就是说，结果更偏向比较模型在这个任务里的诊断能力，而不是比较不同 Agent 框架谁写得更好。

评分也很硬。

ITBench-AA 采用 recall-gated precision。只要漏掉任何真实根因，该任务得分就是 0。只有找全真实根因后，才按误报多少计算精度。

维度	具体设置	读者该怎么理解
任务范围	59 个 SRE 任务，40 个公开、19 个 held-out	目前只能代表 Kubernetes SRE，不代表所有企业 IT 场景
输入材料	告警、事件、日志、指标、链路追踪、拓扑	更接近事故排查，不是普通问答
运行方式	统一 Stirrup harness，最多 100 轮	尽量减少 Agent 框架差异的干扰
输出目标	Kubernetes 根因实体	要找根因，不是列症状
评分规则	漏掉真实根因得 0；找全后再看误报	对漏报和误报都很不宽容

这也是为什么不能把低于 50% 简单翻译成“大模型不能做 SRE”。更准确的说法是：在这个基准、这个评分规则、这类 Kubernetes 诊断任务里，当前模型还不够可靠。

企业现场最怕的不是 Agent 没想法，而是它把症状说成根因。排障里一字之差，后面可能就是错误回滚、误删配置，或者把值班工程师带进岔路。

长推理不等于更会排障

这次结果里，一个很有用的对比是推理轮数。

GPT-5.5 平均每个任务跑 31 轮，得分 46%。Gemini 3.1 Pro Preview 平均跑 83 轮，得分只有 30%。

这说明一件事：多查日志、多跑命令、多给解释，不一定更接近根因。

模型	得分	平均任务轮数	单任务成本
Claude Opus 4.7	47%	未给出	约 5.38 美元
GPT-5.5	46%	31 轮	未给出
Qwen3.7 Max	42%	未给出	未给出
GLM-5.1	40%	未给出	未给出
Gemma 4 31B	37%	未给出	约 0.14 美元
Gemini 3.1 Pro Preview	30%	83 轮	约 2.23 美元

SRE 排障的难点，常常不是没有线索，而是要把根因、诱因、伴随症状分开。

模型如果把 chaos-mesh 控制器、上游注入机制，或者并发出现的异常都列成根因，就会被评分系统当作误报。找得多，未必占便宜。

这对企业很现实。

如果一个 Agent 每次都能产出十几个“可能原因”，它也许能加速初筛。但值班工程师要逐条复核。复核成本上来后，自动化的收益会被吃掉一部分。

所以，SRE 负责人不应该只问“模型会不会查日志”。更该问三件事：它漏不漏真实根因，误报多不多，误报会不会诱导人做危险操作。

企业落地要看边界，也要看成本

这次评测里，开源权重模型给出了一条更现实的路线。

GLM-5.1 得分 40%。Gemma 4 31B 得分 37%，单任务成本约 0.14 美元。它们没有拿第一，但成本曲线更友好。

对照一下，Claude Opus 4.7 以 47% 领先，单任务成本约 5.38 美元。Gemma 4 31B 的分数还高于 Gemini 3.1 Pro Preview 的 30%，而后者单任务成本约 2.23 美元。

这会影响企业试点方式。

对企业 IT 或 SRE 负责人来说，更稳的路线不是让 Agent 自动关停服务、回滚发布、改生产配置。更合理的是让它做三类辅助工作：日志聚合、拓扑定位、候选根因排序。

最终确认，还是应留给人。

预算有限的团队，可以把开源权重模型放进离线事故复盘和内部知识库适配里试。比如先让它跑历史事故，看它能不能稳定找出根因实体，再决定要不要进入线上值班流程。

采购动作也会变得更保守。看到低于 50% 的结果后，企业不必立刻否定 Agent 项目，但应该延后“无人值守 SRE”的承诺，把验收指标改成可复核的辅助能力。

接下来更该看两个变量。

一个是 held-out 任务继续增加后，分数会不会稳定。19 个全新 held-out 任务已经比只刷公开题更有意义，但样本规模仍然有限。基准要继续扩，才更能看出模型是不是在泛化。

另一个是任务范围。ITBench-AA 后续方向包括 FinOps 和 CISO，但当前首批只评估 SRE。现在不能把这组结果外推成“模型已经能处理所有企业 IT 决策”。

边界要画清楚。

ITBench-AA 的价值，不是给模型排座次。它更像一把尺，提醒企业把 AI 运维从演示环境拉回生产约束：成本、误报、漏报、复核责任，一个都绕不开。

ITBench-AA 给企业 AI 运维泼了盆冷水：最强模型也没到 50%

AI运维

基准设定

任务输入

模型成绩

最高47%

推理误区

误报代价

落地边界

适合场景

它测的不是会不会聊天，而是能不能找准根因

长推理不等于更会排障

企业落地要看边界，也要看成本