linux-sre-handbook

03-应急响应SOP

响应流程

P0 故障 → 5 分钟内响应
  ↓
1. 确认故障 (1-2 min)
  - 查看监控面板
  - 确认影响范围和用户数
  - 在 #incident 频道宣布 "I'm on it"
  ↓
2. 止损 (3-5 min)
  优先恢复服务, 不是找根因!
  - 回滚最近发布
  - 切流量到备用集群
  - 限流/降级非核心功能
  ↓
3. 根因分析 (15-30 min)
  - 检查日志/监控/追踪
  - 关联变更记录 (发布/配置/基础设施)
  - 形成假设并验证
  ↓
4. 彻底修复 (30-60 min)
  - 实施修复
  - 验证恢复
  - 取消降级/限流
  ↓
5. 事后复盘 (24-48 h)
  - 编写事故报告
  - 复盘会议
  - 跟踪 Action Items

即时止损手段

手段 命令/操作 效果
回滚发布 kubectl rollout undo 立即可用
切流量 DNS / LB 切到备用集群 分钟级
重启服务 systemctl restart 临时恢复
扩容 kubectl scale --replicas=N 减轻单点压力
限流 Nginx rate limit 保护后端

事故指挥官 (IC - Incident Commander)

IC 职责:
- 协调响应人员
- 决策 (回滚/切流/升级)
- 与干系人沟通 (PM/客服)
- 记录时间线

不要:
- 让 IC 同时写代码修 Bug
- 多人同时操作同一系统

沟通模板

🚨 INCIDENT #1234 - API 延迟飙升

状态: 调查中
影响: 30% 用户 API 请求 > 5s
开始: 14:32 UTC
IC: @zhangsan
频道: #incident-1234

延伸阅读