本知识库面向 Linux SRE(Site Reliability Engineer),覆盖从基础原理到高阶实践的完整体系。使用标准 Markdown 链接构建网状知识结构,同时兼容 Obsidian 双向链接与 GitHub 渲染。
操作系统原理、内核架构、进程、内存、文件系统、用户权限、启动流程、包管理。
Bash 语法、文本处理(grep/sed/awk)、命令速查、调试技巧、实战案例。
TCP/IP 协议栈、DNS、HTTP、负载均衡、网络排查工具链、iptables、TLS 证书。
CPU、内存、磁盘 IO、网络性能分析,性能工具图谱(top/perf/strace/bpftrace),调优案例。
监控体系设计、Prometheus、Grafana、ELK/Loki 日志、分布式追踪、告警规则。
LVM、RAID、文件系统选型(ext4/xfs/zfs/btrfs)、NFS 分布式存储、备份策略。
systemd、进程调度、Cgroups、Supervisor、Cron 定时任务。
SSH 安全、SELinux/AppArmor、PAM 认证、审计合规、内核安全、入侵检测。
Docker 原理与最佳实践、Kubernetes 架构、核心资源、网络存储、运维实战、容器安全。
Ansible、Terraform、CI/CD 流水线设计、GitOps 实践。
USE/RED 方法论、常见故障模式、应急响应 SOP、事后复盘模板、经典案例库。
负载均衡策略、主从集群、故障转移、灾备恢复、容量规划。
SRE 面试题集、场景设计题、学习资源与成长路线。
01-Linux基础 → 02-Shell与脚本 → 03-网络 顺序学习04-系统性能、05-可观测性、11-故障排查方法论09-容器与编排、12-高可用与容灾、10-自动化与IaC13-面试与成长