linux-sre-handbook

01-监控体系设计

监控设计原则

四个黄金信号（Google SRE）

延迟 (Latency) — 请求耗时分布（p50/p90/p99）
流量 (Traffic) — QPS/TPS
错误 (Errors) — 错误率（4xx/5xx）
饱和度 (Saturation) — 资源使用程度

USE 方法（Brendan Gregg）

对每种资源检查：

Utilization — 使用率
Saturation — 饱和程度（队列长度）
Errors — 错误数

RED 方法（Weaveworks）

对每个服务检查：

Rate — 请求速率
Errors — 失败请求数
Duration — 请求延迟分布

监控分层

第一层：基础设施
  CPU、内存、磁盘、网络 → node_exporter

第二层：中间件
  MySQL、Redis、Kafka、Nginx → 各自的 exporter

第三层：应用
  QPS、延迟、错误率 → 应用内暴露 metrics

第四层：业务
  订单量、支付成功率 → 业务指标

第五层：用户体验
  页面加载时间、JS 错误 → RUM

SLI / SLO / SLA

概念	含义	示例
SLI (指标)	某方面服务水平的量化	请求延迟 p99
SLO (目标)	SLI 的目标值	p99 < 200ms
SLA (协议)	对用户承诺的 SLO	可用性 99.9%，违约赔偿

错误预算 = 1 - SLO
例如：SLO = 99.9% 可用 → 月错误预算 = 43 分钟

linux-sre-handbook

01-监控体系设计

监控设计原则

四个黄金信号（Google SRE）

USE 方法（Brendan Gregg）

RED 方法（Weaveworks）

监控分层

SLI / SLO / SLA

延伸阅读