我一般说看代码,看 sql,看服务器监控 cpu,内存网络,一般这个问题思路是怎么样的?
1
wellsc 2021-05-28 21:22:53 +08:00 via iPhone
开放性问题
|
2
Jooooooooo 2021-05-28 21:25:19 +08:00 2
有一个角度是分层看
从自身服务看, 接口内部各个阶段是否有打点, 看各个步骤的耗时能否找到关键耗时点. 从支撑软件看, 比如 jvm, 就看 GC, jit(code cache) 相关, 是否有吻合慢请求的 stw, code cache 是否满了等等 从底层软件看, linux 这一层一般看 cpu, 磁盘 io 和网络, 主要看当时是否有异常, 比如 cpu steal 飙高, tcp timeout 变多等等. 如果是虚拟机, 还可以看看宿主机是否有影响. 再往下就是硬件相关, 比如网络是否有波动. 一般这样答的差不多了. 每一层还能展开说说, 可以先答完这个概括性的再回到每一层详细说. 比如看分阶段耗时可以关注是否每个慢请求都是慢在同一个阶段, 再比如 cpu 高怎么排查也是可以单独细问的. |
3
kidlj 2021-05-28 21:26:54 +08:00
一般慢慢在 IO,把该接口每一个涉及 IO 的步骤耗时 debug logging 下来。找到这个步骤,再细细追究。
|
4
ik 2021-05-28 21:44:02 +08:00 via iPhone
还得看岗位吧,我运维面试也问这个。
|
5
yghack 2021-05-28 21:49:26 +08:00
链路追踪
|
6
findlisa OP @Jooooooooo 很详细,感谢🙏
|
7
raaaaaar 2021-05-29 08:25:57 +08:00 via Android
给上个二十级缓存
|