linux-sre-handbook

02-常见故障模式

故障分类

代码缺陷 → 部署 → 资源 → 依赖 → 配置 → 网络 → 数据 → 安全

经典故障模式

1. 级联故障 (Cascading Failure)

A 故障 → B 超时重试 → B 负载剧增 → B 故障 → C 故障 → …

预防

2. 惊群效应 (Thundering Herd)

缓存过期瞬间,大量请求同时打到后端。

预防

3. 资源泄漏

排查

lsof -p <PID> | wc -l      # 文件句柄
ss -tp | grep <PID> | wc -l  # 连接数

4. 配置漂移 (Configuration Drift)

手动修改导致集群内节点配置不一致。

解决:IaC (Ansible/Terraform) + GitOps (ArgoCD)

5. 笨邻居 (Noisy Neighbor)

同一宿主机上某容器占用过多资源,影响其他容器。

解决:Cgroups 资源限制 + QoS 等级

6. DNS 故障

故障信号速查表

信号 可能原因
502 Bad Gateway 后端服务挂了/启动中/超时
503 Service Unavailable 维护模式/过载
504 Gateway Timeout 后端处理太慢 → 检查慢查询/外部依赖
Connection Refused 端口未监听/防火墙
Connection Timeout 网络不通/防火墙丢弃
Too Many Open Files ulimit 不足/文件泄漏
OOM Killer 内存不足
Disk Full 日志/数据写满

延伸阅读