代码缺陷 → 部署 → 资源 → 依赖 → 配置 → 网络 → 数据 → 安全
A 故障 → B 超时重试 → B 负载剧增 → B 故障 → C 故障 → …
预防:
缓存过期瞬间,大量请求同时打到后端。
预防:
排查:
lsof -p <PID> | wc -l # 文件句柄
ss -tp | grep <PID> | wc -l # 连接数
手动修改导致集群内节点配置不一致。
解决:IaC (Ansible/Terraform) + GitOps (ArgoCD)
同一宿主机上某容器占用过多资源,影响其他容器。
解决:Cgroups 资源限制 + QoS 等级
/etc/resolv.conf 配置错误| 信号 | 可能原因 |
|---|---|
| 502 Bad Gateway | 后端服务挂了/启动中/超时 |
| 503 Service Unavailable | 维护模式/过载 |
| 504 Gateway Timeout | 后端处理太慢 → 检查慢查询/外部依赖 |
| Connection Refused | 端口未监听/防火墙 |
| Connection Timeout | 网络不通/防火墙丢弃 |
| Too Many Open Files | ulimit 不足/文件泄漏 |
| OOM Killer | 内存不足 |
| Disk Full | 日志/数据写满 |