本人刚入职运维不久,现在公司内部有几十台服务器,同时不同客户单位也平均每家有两三台服务器需要运维管理。想要寻求一个方案,能够实时监控每台服务器的健康状态,我公司部署的服务健康状态,发生异常能够及时报警通知。目前想到的是利用 zabbix 进行监控,还请各位指点一下。
1
jstony 2023-10-16 11:31:43 +08:00
公司之前没有服务器监控?先问问前任怎么管理这些机器的。
|
2
zhhmax 2023-10-16 11:34:15 +08:00
prometheus+grafana ,也挺好用的,我自己的几台服务器就用的这个.
|
4
libook 2023-10-16 11:35:43 +08:00
先看是不是服务器上有现有的满足需要的监控方案,如果没有再考虑加监控。
在满足监控需求的基础上,哪个顺手就用哪个,比如你对 zabbix 熟悉就用 zabbix ,如果对 prometheus 熟悉就用 prometheus 。 |
6
greenskinmonster 2023-10-16 11:37:25 +08:00
zabbix 没啥问题,很好用
|
8
libook 2023-10-16 11:46:10 +08:00
@Lunrry #7 没有更容易的,都是在满足需求的基础上先入为主。比如你 zabbix 熟悉一些,相比来说可能就比 prometheus 少一些学习成本。
|
10
libook 2023-10-16 12:07:27 +08:00
@Lunrry #9 多个网络的情况,比较理想的做法是做专用的通道来将监控数据集中收集。比如数据从每个网络以加密的方式推送到中心监控服务器。
你可以看看 Zabbix 的官方文档,看是否可以在每个网络内使用 Zabbix Proxy 来收集网络内的监控信息,然后再让 Zabbix Proxy 主动推送信息到网络外的中心 Zabbix 服务器。 |
13
Martin123123 2023-10-16 15:31:47 +08:00
还可以尝试类似于 哪吒监控 的方式,顺便可以做一下探针
|
14
Aumujun 2023-10-16 15:34:06 +08:00
单纯只是主机监控的话 推荐 zabbix ,有上 k8s ,可以 prometheus ,生态比较好。
|
15
tool2d 2023-10-16 15:34:41 +08:00
写点脚本,写个循环 ping ,ping 每一个服务器。
ping 不通超过几次就邮件报警。 |
17
Foxkeh 2023-10-16 16:07:20 +08:00
十几台机器, 我是用的 zabbix, 告警是 Email+企业微信机器人
楼上说的 prometheus+grafana 方案听过好多次了, 等有空我也打算学习下 |
18
kumago 2023-10-16 16:27:07 +08:00
Uptime Kuma 简单
|
19
lifekevin 2023-10-16 16:51:32 +08:00
我现在用的方式是 prometheus+grafana ,不在同个网络的内网机器使用 vpn 通道来传输数据。
vpn 通道是用 wireguard 部署的,只要有一端有公网 IP 就可以了。 部署之前啥方案都不熟,所以选了当下比较多人推荐的方案,自己看文档慢慢测试就行。 |
20
bohai 2023-10-16 20:07:53 +08:00 via iPhone
建议 op 直接选用熟悉的 zabbix 来监控,不同地区使用 proxy 来完成数据采集。
|
21
devopsdogdog 2023-10-16 23:00:15 +08:00
zabbix 简单易用,监控 url 和 主机状态够了,自定义脚本也灵活
客户的服务器状态就别管了,除非你们是 包括运维,否则 挂了再说吧,机器不在你这,一般就是代表客户自己管理吧。 |
22
user100saysth 2023-10-17 07:49:19 +08:00 via iPhone
@lifekevin 客户的机器上装组网?
你是认真的吗 |
23
Lunrry OP @devopsdogdog #21 基本上就是客户将几台服务器交给我们,我负责公司平台的私有化部署,服务出问题以及服务升级需要去处理。连接方式有通过向日葵等连接内网 Windows 前置机再 ssh 进服务器;堡垒机登陆; vpn 登陆。这种情况下可以通过 zabbix proxy 收集状态与 zabbix server 通信告警吗
|
24
devopsdogdog 2023-10-17 09:37:44 +08:00
@Lunrry 有内网要求的,一般都不会允许,除非客户提出,否则别搞。你想想人家为啥要搞 vpn 搞堡垒机,你搞个监控在人家机子上,你们算啥。
|
25
Lunrry OP @devopsdogdog #24 这个确实安全方面是个问题,不要稍微有点事就得背锅
|