linux-sre-handbook

01-监控体系设计

监控设计原则

四个黄金信号(Google SRE)

  1. 延迟 (Latency) — 请求耗时分布(p50/p90/p99)
  2. 流量 (Traffic) — QPS/TPS
  3. 错误 (Errors) — 错误率(4xx/5xx)
  4. 饱和度 (Saturation) — 资源使用程度

USE 方法(Brendan Gregg)

对每种资源检查:

RED 方法(Weaveworks)

对每个服务检查:

监控分层

第一层:基础设施
  CPU、内存、磁盘、网络 → node_exporter

第二层:中间件
  MySQL、Redis、Kafka、Nginx → 各自的 exporter

第三层:应用
  QPS、延迟、错误率 → 应用内暴露 metrics

第四层:业务
  订单量、支付成功率 → 业务指标

第五层:用户体验
  页面加载时间、JS 错误 → RUM

SLI / SLO / SLA

概念 含义 示例
SLI (指标) 某方面服务水平的量化 请求延迟 p99
SLO (目标) SLI 的目标值 p99 < 200ms
SLA (协议) 对用户承诺的 SLO 可用性 99.9%,违约赔偿
错误预算 = 1 - SLO
例如:SLO = 99.9% 可用 → 月错误预算 = 43 分钟

延伸阅读