对每种资源检查:
对每个服务检查:
第一层:基础设施
CPU、内存、磁盘、网络 → node_exporter
第二层:中间件
MySQL、Redis、Kafka、Nginx → 各自的 exporter
第三层:应用
QPS、延迟、错误率 → 应用内暴露 metrics
第四层:业务
订单量、支付成功率 → 业务指标
第五层:用户体验
页面加载时间、JS 错误 → RUM
| 概念 | 含义 | 示例 |
|---|---|---|
| SLI (指标) | 某方面服务水平的量化 | 请求延迟 p99 |
| SLO (目标) | SLI 的目标值 | p99 < 200ms |
| SLA (协议) | 对用户承诺的 SLO | 可用性 99.9%,违约赔偿 |
错误预算 = 1 - SLO
例如:SLO = 99.9% 可用 → 月错误预算 = 43 分钟