Rancher 中 RethinkDB 集群节点无法启动故障排除

2017-11-18 Somax 需要1分钟读完

这篇文章（5a0fe53a4da5ce0928d5f28d）是从 Teambition 迁移过来的

故障描述

之前 RethinkDB 按照 1 + 3 的模式集群部署成功，每个节点分别部署在不同的 host 上。由于某种未知原因，其中一台 host 在 Rancher 中失联，在连接恢复后该 host 上的 RethinkDB 就一直无法正常启动。

成功👌，Rancher 会帮我们把余下的事情做掉，所有的容器不出意外都会自动起来（事实上的确没出意外）。来再检查一下，HealthCheck ✅， RethinkDB ✅，搞定！

等下……

为什么 RethinkDB 管理界面中始终还是两个节点，查看刚刚启动的 RethinkDB 的容器日志，显示已经成功加入集群，连接了另外两个节点，WHY ?!

尝试重启该 RethinkDB 节点，还是一样 🤦‍♂️

这时候我们需要……冷静

我们的集群是用 RethinkDB 的 proxy 节点去接入集群的，会不会……重启 RethinkDB Proxy ……搞定 🚀！