Ceph client无法连接至集群问题解决

1.问题描述

今天做iptables策略,重启集群中的一台机器后,输入ceph -s发现如下状况:

[root@deploynode ~]# ceph -s
2015-09-10 13:50:57.688516 7f6a6b8cc700  0 monclient(hunting): authenticate timed out after 300
2015-09-10 13:50:57.688553 7f6a6b8cc700  0 librados: client.admin authentication error (110) Connection timed out
Error connecting to cluster: TimedOut

2.问题分析

之前集群运作良好,后来由于添加了iptables相关策略,就无法通过ceph client连接至集群并获取 集群状态。第一反应是相关IP或者端口号是不是被策略禁掉,导致数据包无法正常到达相关进程。通过命令netstat -ntpl 没有发现ceph-mon进程对于的端口号。

3.处理方法

在策略脚本中添加如下内容:

#添加允许访问的IP地址
allowip=(58.220.*.*)

#开放ceph mon端口号6789
$IPT -A INPUT -p tcp --dport 6789 -j ACCEPT

重新执行后执行命令netstat -ntpl

执行ceph-s命令后

-------------------------------------New Added-----------------------------------------------------

后来OSD节点也出了问题,症状体现在osd节点的状态处于up / down 不停变化,到最后只有一个节点up。 但是检查各主机后发现各osd.$i节点都在运行当中,后同样担心是osd进程通信端口被策略影响。后在添加如下 内容:

$IPT -A INPUT -p tcp    -m multiport   --dports 6800:6820  -j ACCEPT
在每个节点上,开放6800-6820的端口,这些端口是给osd进程使用的,后通过ceph osd tree检查osd状态。
俱OK。 1.问题描述 今天做iptables策略,重启集群中的一台机器后,输入ceph -s发现如下状况: [root@deploynode ~]# ceph -s 2015-09-10 13:50:57.688516 7f6a6b8cc700 0 monclient(hunting): authenticate timed out after 300 2015-09-10 13:50:57.688553 7f6a6b8cc700 0 librados: client.admin authentication error (110) Connection timed out Error connecting to cluster: TimedOut 2.问题分析 之前集群运作良好,后来由于添加了iptables相关策略,就无法通过ceph client连接至集群并获取 集群状态。第一反应是相关IP或者端口号是不是被策略禁掉,导致数据包无法正常到达相关进程。通过命令netstat -ntpl 没有发现ceph-mon进程对于的端口号。 3.处理方法 在策略脚本中添加如下内容: #添加允许访问的IP地址 allowip=(58.220.*.*) #开放ceph mon端口号6789 $IPT -A INPUT -p tcp --dport 6789 -j ACCEPT 重新执行后执行命令netstat -ntpl 执行ceph-s命令后 -------------------------------------New Added----------------------------------------------------- 后来OSD节点也出了问题,症状体现在osd节点的状态处于up / down 不停变化,到最后只有一个节点up。 但是检查各主机后发现各osd.$i节点都在运行当中,后同样担心是osd进程通信端口被策略影响。后在添加如下 内容: $IPT -A INPUT -p tcp -m multiport --dports 6800:6820 -j ACCEPT 在每个节点上,开放6800-6820的端口,这些端口是给osd进程使用的,后通过ceph osd tree检查osd状态。 俱OK。
经验分享 程序员 微信小程序 职场和发展