Simple Observability 在 2026 年 4 月 29 日发布《Alert-driven monitoring》文档,讲的不是新功能,也不是新产品。

它讲的是一个老问题:很多团队把监控做成了“指标接入工程”和“仪表盘装修工程”。图越来越多,大屏越来越亮,但真正故障发生时,值班工程师还是靠告警被拉进响应流程。

这就是这篇文档最有意思的地方。它没有否定仪表盘,而是把位置摆正:仪表盘是辅助判断,告警才是运维动作的触发点。

我更在意的是这个判断:可信监控系统的关键,不在可视化是否丰富,而在告警是否能准确指向需要人工介入的真实故障。

监控目标要从“看见指标”转向“触发行动”

Simple Observability 的主张很直接:基础设施监控不应以仪表盘为中心,而应以告警为中心。

这句话容易被误读成“仪表盘不重要”。不是。仪表盘当然重要,它适合排查、复盘、看趋势。问题在于,生产系统出故障时,团队进入响应流程,通常不是因为某个人盯着一张图,而是因为一条告警打到了值班链路里。

所以两者的职责不同。

问题常见做法文档主张对团队的影响
监控目标接更多指标,做更多图让告警触发有效响应从展示工程转向可靠性工程
仪表盘角色被当作主要成果辅助排查、复盘、观察趋势不再用“图多”证明监控成熟
告警角色指标异常就通知只在需要人工介入时触发减少值班噪声,提高响应质量
维护方式规则长期堆积删除、调整、复盘、根因分析把告警规则当代码或测试用例维护

这对 SRE 和运维工程师很现实。值班时最怕的不是没图看,而是告警太多、真假难辨。每一条告警都在消耗人的注意力。

对负责服务可靠性的研发团队负责人来说,重点也会变。不能只问“这套监控接了多少指标”,还要问三件事:

  • 这条告警触发后,谁需要行动?
  • 行动是什么?重启、扩容、回滚,还是只需观察?
  • 如果没人行动,它为什么还存在?

这几个问题,比“仪表盘好不好看”更接近可靠性本身。

告警设计要从服务失败倒推,不要从现有指标硬设阈值

文档批评的一种常见路径是:先把 CPU、内存、延迟、错误率都接进来,再问阈值设多少。

这条路看起来工程化,实际很容易制造噪声。因为指标异常不一定等于服务失败。CPU 短暂飙高,可能只是批处理任务;数据库延迟抖一下,也未必影响用户请求。

Simple Observability 给出的顺序是反过来的:先定义用户可感知的服务失败,或者失败前兆,再倒推需要监控哪些指标行为。

比如,支付接口持续超时、核心 API 错误率升高、队列堆积到影响订单处理,这些更接近用户真实感受到的问题。告警应该围绕这类失败场景设计,而不是围绕“某个指标看起来不舒服”设计。

这一步会让团队少设很多告警。

少,不是偷懒。少而准,才有响应价值。

这里也有现实限制。不是所有团队一开始都能清楚定义“服务怎样算失败”。业务边界模糊、依赖链路复杂、责任人不清时,告警规则很容易变成历史包袱:没人敢删,没人愿意认领,最后大家只好忍着。

所以落地动作不能停在阈值讨论上。更可行的是从服务失败清单开始:

  • 列出用户最能感知的失败.不可登录、无法下单、支付超时、核心接口错误率升高。
  • 找出失败前兆.队列持续堆积、依赖服务错误率上升、关键任务长时间未完成。
  • 再决定指标、阈值和通知对象。
  • 每次事故后补规则,每次误报后改规则或删规则。

这比“看到指标就设阈值”慢一点,但后面少还债。

误报不是小麻烦,而是监控系统的信用损耗

告警疲劳最危险的地方,不是吵,而是让人不信。

文档用“狼来了”解释这个问题。定时任务拉高 CPU、爬虫打到死链接、备份任务带来短暂延迟,这类通知如果长期出现,工程师会很自然地学会忽略它们。

这不是态度问题,是自我保护。人的注意力有限,值班工程师会静音、过滤、延迟查看。等真正故障发生时,监控系统已经失去信用。

所以“零容忍误报”不能理解成一次性把阈值设到完美。原文强调的是持续迭代:只要一个告警触发后不需要人工介入,它就应该被删除、改写,或降级到日志和仪表盘里。

治理告警疲劳,靠的是纪律,不是口号:

  • 删除无效告警.触发后没人行动的规则,不要长期保留。
  • 调整触发条件.把偶发抖动和真实故障区分开。
  • 每周复盘告警.看哪些告警有动作,哪些只是噪声。
  • 做事故根因分析.真实故障漏报时,追问最早可观测信号是什么。
  • 把告警规则当代码维护.有 owner,有变更记录,有回归检查。

这对两类人影响最大。

SRE/运维工程师要调整的是日常动作:少加“保险型告警”,多清理“没人处理的告警”。每周复盘不只是事故复盘,也应该包括告警复盘。否则告警库会像没人维护的测试用例,越积越多,最后全都不可信。

研发团队负责人要调整的是考核视角:不要只看监控覆盖率,也要看误报处理率、漏报后的规则更新、告警是否绑定明确 owner。没有这些机制,SLO、值班制度和事故响应都会被噪声拖垮。

对采购和平台负责人来说,这篇文档也给了一个朴素标准。选工具时,不要只比较图表漂亮不漂亮、指标接入快不快。更该看告警生命周期怎么管理:误报怎么清理,事故后规则怎么更新,通知链路能不能对应到实际负责人。

接下来真正该观察的,也不是 Simple Observability 会不会推出更多模板。更关键的是,团队能不能把这套机制固定下来:每周清理告警、事故后补规则、误报后删规则。

如果做不到,工具再好,也只是把噪声画得更漂亮。