下游用户称调用我们的接口出现延迟波动( 2000ms 以上),但是我们内部日志显示在 200ms 内就返回了结果,期间系统没有做调整,负载和服务器也是稳定的,应该确定就是网络波动导致的,但是团队内没有网络工程师。我的问题是:
由于大家时间不同步,不好准确定位是我们收到请求前就出现了延迟,还是我们的响应返给用户过程中出现了延迟,如何定位这个问题出在哪一个阶段呢?
我们应该怎么定位到问题是出在运营商还是安全防火墙还是其他原因上?
以及怎么能直观的对这种接口调用过程中的网络波动做监控和告警?