01-SRE面试题集
面试评估维度
| 维度 |
考察内容 |
比重 |
| Linux / OS |
内核、进程、内存、IO、网络 |
★★★★★ |
| Troubleshooting |
排查思路、方法论、实战经验 |
★★★★★ |
| 分布式系统 |
CAP、一致性、容错 |
★★★★ |
| 编程/脚本 |
Python/Go/Shell 实操 |
★★★ |
| 监控/可观测性 |
体系设计、Prometheus |
★★★ |
| 软技能 |
沟通、事故管理、文档 |
★★★ |
Linux 基础
- 进程和线程的区别?Linux 如何创建线程?
- 一个进程的内存布局是怎样的(Text/Data/BSS/Heap/Stack)?
- 什么是虚拟内存?Page Fault 是什么?
- OOM Killer 的工作机制?如何保护关键进程?
free -h 中 buff/cache 是什么意思?可以直接回收吗?
- 硬链接和软链接的区别?
ln 和 ln -s?
- TCP 三次握手和四次挥手的过程?TIME_WAIT 的作用?
- Linux 如何实现零拷贝(sendfile/splice)?
故障排查
- 线上服务 CPU 100%,如何排查?
- 用户反馈”网站很慢”,如何定位?
- 服务间歇性 502,可能的原因有哪些?
- 如何排查内存泄漏?
- 磁盘满了怎么处理?如何快速找到占用大的目录?
分布式系统
- CAP 定理是什么?实际中如何权衡?
- 什么是最终一致性?有哪些实现方式?
- 分布式锁的实现方式(Redis/ZooKeeper/etcd)?
- 如何设计一个分布式ID生成器?
延伸阅读