初级 SRE (0-2年)
→ 扎实 Linux 基础
→ 掌握 Shell/Python 脚本
→ 理解网络协议和排查
→ 熟练使用监控和告警
中级 SRE (2-5年)
→ 性能分析和调优
→ K8s 集群运维
→ CI/CD 和 IaC
→ 故障排查方法论
→ 事故管理和复盘
高级 SRE (5年+)
→ 架构设计和容量规划
→ 大规模集群治理
→ SRE 文化推广 (SLO/Error Budget)
→ 团队技术领导力
→ 跨团队协作
| 书籍 | 重点 |
|---|---|
| 《SRE: Google 运维解密》 | SRE 方法论、SLO/Error Budget |
| 《性能之巅》 Brendan Gregg | 系统性能分析方法论 |
| 《UNIX/Linux 系统管理技术手册》 | Linux 运维百科全书 |
| 《TCP/IP 详解 卷一》 | 网络协议基石 |
| 《数据密集型应用系统设计》 | 分布式系统理论 |
| 《Prometheus 监控实战》 | 可观测性实践 |
kubeadm 或二进制部署