P0 故障 → 5 分钟内响应
↓
1. 确认故障 (1-2 min)
- 查看监控面板
- 确认影响范围和用户数
- 在 #incident 频道宣布 "I'm on it"
↓
2. 止损 (3-5 min)
优先恢复服务, 不是找根因!
- 回滚最近发布
- 切流量到备用集群
- 限流/降级非核心功能
↓
3. 根因分析 (15-30 min)
- 检查日志/监控/追踪
- 关联变更记录 (发布/配置/基础设施)
- 形成假设并验证
↓
4. 彻底修复 (30-60 min)
- 实施修复
- 验证恢复
- 取消降级/限流
↓
5. 事后复盘 (24-48 h)
- 编写事故报告
- 复盘会议
- 跟踪 Action Items
IC 职责:
- 协调响应人员
- 决策 (回滚/切流/升级)
- 与干系人沟通 (PM/客服)
- 记录时间线
不要:
- 让 IC 同时写代码修 Bug
- 多人同时操作同一系统
🚨 INCIDENT #1234 - API 延迟飙升
状态: 调查中
影响: 30% 用户 API 请求 > 5s
开始: 14:32 UTC
IC: @zhangsan
频道: #incident-1234