K8s etcd 恢复

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

k8s 集群 1.29.8 3master 节点，因为不留神执行了影响 IP 地址的命令，导致控制面雪崩。利用其中一个节点全新重建集群，能否用已有的 etcd 数据库还原之前的资源 pod deployment 等等。

4 条回复 • 2026-01-16 12:41:12 +08:00

anubu

1 天前

控制平面崩一般是 etcd 问题，不考虑数据丢失的话，原主节点上强制单节点 etcd 启动，集群应该可以恢复。然后删掉不用的主节点，重新加入新的主节点。

shenzheke

1 天前 via Android

我也这样做了，并且单节点上 etcd APIserver 坚持了 10 分钟以上，以为稳了，加入新节点，很快又崩了。搞两天了，学习实验。Ubuntu22.04 用了 netplan 把网搞坏了，然后 cloud init 恢复，接下来就是控制面静态 pod 反复重启。

NoobPhper

16 小时 58 分钟前

etcd 节点数量是多少，报的是什么错，如果 leader 不在出问题的节点完全可以驱逐后重建有问题的

coefu

14 小时 59 分钟前

你应该先观察 etcd 的状态的，搞清楚了 etcd 同步的情况，找到最新 etcd ，然后导出来；如果是生产环境的话，那就压力山大了。