V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Symo
V2EX  ›  Kubernetes

k8s 如何实时监控 deployment 的部署结果

  •  
  •   Symo · 2022-04-21 18:23:26 +08:00 · 2462 次点击
    这是一个创建于 945 天前的主题,其中的信息可能已经有所发展或是发生改变。

    比如当 apply 一个新的 deployment 的时候, 如果部署成功了只能通过日志观测, 但是日志报警却无法配置成实时, 希望是能有一个工具可以监控 deployment 对应的 pod 状态, 然后通知到 IM 里面. 做了一些搜索但是没有找到类似的组件, 目前使用的是阿里的 ACK 托管集群. 求教目前比较常见的解决方案有哪些

    12 条回复    2022-07-28 13:44:39 +08:00
    Judoon
        1
    Judoon  
       2022-04-21 18:26:18 +08:00
    “如果部署成功了只能通过日志观测”
    这个结论是怎么得出的?

    pod 加上健康检查的话,本身 k8s 接口就能获取到生命周期状态啊
    Symo
        2
    Symo  
    OP
       2022-04-21 18:33:35 +08:00
    @Judoon 通过 kubectl 是周期性的检查容器状态吧?
    目前的状况是打算把现在的 ECS 部署上 K8S, 但是通过阿里云提供的 flow 部署之后就没有办法看到 pod 的状态.
    能想到的办法就是在 postStart 的时候 curl 一个外部请求, 但是感觉不是合理, 万一网络波动反而造成 pod 失败.
    superchijinpeng
        3
    superchijinpeng  
       2022-04-21 18:35:57 +08:00
    TracyMagic
        4
    TracyMagic  
       2022-04-21 18:37:31 +08:00
    prometheus 加上个告警不就可以了吗?
    xnile
        5
    xnile  
       2022-04-21 19:09:51 +08:00
    可以自己用 client-go 实现一个
    fighterhit
        6
    fighterhit  
       2022-04-21 19:19:54 +08:00
    我理解楼主的意思,上头的可能没做过这块不清楚需求。其实我们在做的时候也一直面临这个问题,想获取状态无非是"推"、“拉”两种,像轮询这种就算是“拉”,但是和拉的时间间隔有关,不好把握,不一定是实时的;另一种“推”就是 k8s 所在的某个服务端直接给你推状态结果。我们现在是自己写的一套根据事件 event 来跟踪结果,达到某个状态(比如你可以定义为 pod 所有容器 started )来”回调“(其实相当于“推”)给前端等其它模块来感知结果。但这里面也有问题,一是 k8s event 不保证一定有,也就是可能会丢(只不过我们从没遇到过),另一个就是 k8s 本身有些状态不是一次性的,可能会重试成功(比如 imagePullBackOff ),虽然出现了错误但实际内部重试几次可能还会成功,也就是中间的错误状态也会变。相对好点的方法你可以用 websocket 流来实时推 pod 状态,但需要你编写一些代码。其实 k8s client-go 里 informer 的 list-watch 机制挺好的,利用了 etcd 特性 watch 变化来推送给客户端,之前一直在找有没有类似实现机制的框架可以方便实现其它用途,因为 informer 是 k8s client-go 里的除非把它拆出来,但目前还没找到。
    Frankcox
        7
    Frankcox  
       2022-04-21 19:37:07 +08:00
    写点代码,利用 List Watch 机制监控下试试?
    最近自己也在搞一个 k8s 的监控服务,监控 cluster 的健康和 pod 与 events ,用 bark 推送到 ios 。
    Symo
        8
    Symo  
    OP
       2022-04-22 11:46:14 +08:00
    @fighterhit 是这样的, 今天又找到一个阿里的开源实现 https://github.com/AliyunContainerService/kube-eventer, 在阿里云自己的 ACK 集群上面使用的也是这个, 但是比开源的版本更新. 内部实现用的就是 list&watch 的机制, 感觉可以参考这个代码开发一下.
    fighterhit
        9
    fighterhit  
       2022-04-23 21:13:04 +08:00
    @Symo 嗯,之前大概了解过这个项目。如果是监听 k8s 资源变化基本都是用的 k8s client-go list-watch 机制,但跳出 k8s 资源来不知道有没有这种类似的框架
    kowgarnett
        10
    kowgarnett  
       2022-04-27 12:10:03 +08:00
    希望实时那要不要考虑直捣 etcd 去 watch key ?
    yyttrr
        11
    yyttrr  
       2022-04-28 16:47:26 +08:00
    我这里是部署按钮边上做了个检查按钮,点击通过 api 获取对应 pod 的状态,可以一个个的看 std 日志、event 啥的,谁上线谁看
    dnsjia
        12
    dnsjia  
       2022-07-28 13:44:38 +08:00
    用 client-go 获取 deployment pod 就绪数量,同时判断 template-hash 能够满足你的需求
    https://docs.dnsjia.com/application/deploy/
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2646 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 15:32 · PVG 23:32 · LAX 07:32 · JFK 10:32
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.