linux-sre-handbook

01-SRE面试题集

面试评估维度

维度 考察内容 比重
Linux / OS 内核、进程、内存、IO、网络 ★★★★★
Troubleshooting 排查思路、方法论、实战经验 ★★★★★
分布式系统 CAP、一致性、容错 ★★★★
编程/脚本 Python/Go/Shell 实操 ★★★
监控/可观测性 体系设计、Prometheus ★★★
软技能 沟通、事故管理、文档 ★★★

Linux 基础

  1. 进程和线程的区别?Linux 如何创建线程?
  2. 一个进程的内存布局是怎样的(Text/Data/BSS/Heap/Stack)?
  3. 什么是虚拟内存?Page Fault 是什么?
  4. OOM Killer 的工作机制?如何保护关键进程?
  5. free -h 中 buff/cache 是什么意思?可以直接回收吗?
  6. 硬链接和软链接的区别?lnln -s
  7. TCP 三次握手和四次挥手的过程?TIME_WAIT 的作用?
  8. Linux 如何实现零拷贝(sendfile/splice)?

故障排查

  1. 线上服务 CPU 100%,如何排查?
  2. 用户反馈”网站很慢”,如何定位?
  3. 服务间歇性 502,可能的原因有哪些?
  4. 如何排查内存泄漏?
  5. 磁盘满了怎么处理?如何快速找到占用大的目录?

分布式系统

  1. CAP 定理是什么?实际中如何权衡?
  2. 什么是最终一致性?有哪些实现方式?
  3. 分布式锁的实现方式(Redis/ZooKeeper/etcd)?
  4. 如何设计一个分布式ID生成器?

延伸阅读