linux-sre-handbook

Linux SRE 知识库 - 总索引

本知识库面向 Linux SRE（Site Reliability Engineer），覆盖从基础原理到高阶实践的完整体系。使用标准 Markdown 链接构建网状知识结构，同时兼容 Obsidian 双向链接与 GitHub 渲染。

操作系统原理、内核架构、进程、内存、文件系统、用户权限、启动流程、包管理。

Bash 语法、文本处理（grep/sed/awk）、命令速查、调试技巧、实战案例。

TCP/IP 协议栈、DNS、HTTP、负载均衡、网络排查工具链、iptables、TLS 证书。

CPU、内存、磁盘 IO、网络性能分析，性能工具图谱（top/perf/strace/bpftrace），调优案例。

监控体系设计、Prometheus、Grafana、ELK/Loki 日志、分布式追踪、告警规则。

LVM、RAID、文件系统选型（ext4/xfs/zfs/btrfs）、NFS 分布式存储、备份策略。

systemd、进程调度、Cgroups、Supervisor、Cron 定时任务。

SSH 安全、SELinux/AppArmor、PAM 认证、审计合规、内核安全、入侵检测。

Docker 原理与最佳实践、Kubernetes 架构、核心资源、网络存储、运维实战、容器安全。

Ansible、Terraform、CI/CD 流水线设计、GitOps 实践。

USE/RED 方法论、常见故障模式、应急响应 SOP、事后复盘模板、经典案例库。

负载均衡策略、主从集群、故障转移、灾备恢复、容量规划。

SRE 面试题集、场景设计题、学习资源与成长路线。