linux-sre-handbook

04-灾备与恢复

RTO 与 RPO

指标 含义 越小 →
RTO (Recovery Time Objective) 恢复需要多长时间 越快恢复
RPO (Recovery Point Objective) 最多丢失多少数据 越少丢数据
      RPO ←→ RTO
  ├──────┼──────┤
  故障点  恢复点  恢复完成

灾备等级

级别 说明 RTO 成本
备份恢复 从备份恢复 小时-天
温备 预配资源,手工切换 分钟-小时
热备 资源就绪,自动切换 秒-分钟
多活 多站点同时服务 秒级 最高

灾备架构

主站 (Active)
    ├─ 数据库 → 异步/半同步复制 → 备站
    ├─ 文件存储 → 跨区域复制 → 备站
    └─ DNS → 健康检查 → 自动切换

灾备演练

桌面演练

模拟演练

实战演练

关键注意点

延伸阅读