主机名 | IP地址 | 操作系统 | MySQL版本 | 插件版本 |
---|---|---|---|---|
rac1 | 11.12.14.29 | Redhat 6.10 | 5.7.26 | 25.3.27 |
rac2 | 11.12.14.30 | Redhat 6.10 | 5.7.26 | 25.3.27 |
rac3 | 11.12.14.39 | Redhat 6.10 | 5.7.26 | 25.3.27 |
前面我们说了Galera Cluster有三种不同的分支
上面我们说了如何一步步搭建MySQL Galera集群
前面我们介绍了Galera相关的知识包括如何搭建,这节的内容为监控Galera
在监控Galera之前我们可能已经监控了其他MySQL的变量,Galera也提供了一些状态变量供查看
他们以wsrep_开头,我们可以用如下语句来查看所有Galera的状态
mysql> SHOW GLOBAL STATUS LIKE 'wsrep_%';
该语句查询出来可能有60个,可能大多数都不是我们需要的
但是有些是你需要查看的,我们可以简单分为3个种类
该分类主要有如下状态变量
我们知道集群内节点是相互同步的,这意味着他们执行完了所有的相同的事务
每个事务由一个uuid来标识,所以所有节点最后执行的uuid应该是一样的
所以我们在所有节点查询uuid并比较
所有节点
SHOW GLOBAL STATUS LIKE 'wsrep_cluster_state_uuid' \G
如果最后个节点和其他的不一致,可能是由于正在执行导致
对于一个健康的集群,所有节点查询出来的集群大小应该是一致的,应该是所有节点的个数
所有节点
SHOW GLOBAL STATUS LIKE 'wsrep_cluster_size';
对于一个健康的集群,所有节点的集群变化次数应该是一致的,重启数据库算2次(关闭和启动)
所有节点
SHOW GLOBAL STATUS LIKE 'wsrep_cluster_conf_id';
如果该值非常大,可能会是由于节点不断的被踢出和加入导致,需要查看
我们日常除了查询集群整体状态,对于各个节点我们也应该有所关注
主要有如下状态变量
我们可以查询如下变量来查看该节点是否在集群内
SHOW GLOBAL STATUS LIKE 'wsrep_ready';
SHOW GLOBAL STATUS LIKE 'wsrep_connected';
该值必须为ON
如果为OFF说明有问题,在该节点的事务会失败
可能是由于节点故障,网络问题,也可能是参数配置错误
我们可以在错误日志中查看相关错误
我们使用如下语句查询节点在集群中的状态
SHOW GLOBAL STATUS LIKE 'wsrep_local_state_comment';
其结果很容易理解,有:
一般应该为Synced,代表已同步
通过上面的查询我们可以知道集群的是否正常,且不会对服务器造成大的负载
当复制队列中有很多写集,节点会触发Flow Control机制暂停复制用来缓解服务器压力
我们可以监控如下变量来检查该机制的运行情况
上面三个变量,当执行FLUSH STATUS 命令时会被清零
下面的变量显示上次状态查询以来本地队列的平均大小
SHOW STATUS LIKE 'wsrep_local_send_queue_avg';
该值大于0代表,节点无法及时应用接收到的写集
这时我们需要查询如下变量来查看最大和最小值
如果你怀疑节点负载较大,你可以执行flush status之后等待一段时间,再查询如下值
SHOW STATUS LIKE 'wsrep_flow_control_paused';
其显示了在这段时间内复制进程暂停了多久(百分比),任何大于0的数值说明复制的性能不佳
如果值为0.18,代表18%的时间
你可以不时的查询该值来检查其是否是0(记得先执行flush status来清零以前的值),如果不能解决,需要增加slave thread的值(wsrep_slave_threads)
我们可以查询如下变量来评估节点是否可以启用并行恢复
SHOW STATUS LIKE 'wsrep_cert_deps_distance';
我们可以根据该值来参考设置wsrep_slave_threads的值
https://galeracluster.com/library/training/tutorials/galera-monitoring.html