分布式存储--负载均衡

分布式存储通常会将数据进行分片,常见的分片算法有range,hash。 基于range的分片算法,是将数据按照大小拆分成多个范围,每个范围的数据作为一个分片,为了实现每个分片的高可用,会使用raft等一致性协议去冗余数据。这样一个节点就可能存在多个分片数据,但是只有主分片才能进行写服务,所以需要对每个节点的写流量进行负载均衡,即保证每个节点的主分片数量差不多。

假设原来集群有3个节点,分别是node_a,node_b,node_c,只有一个分片,称为region1,region1的主节点上node_a

如果现在往这个集群再加入2个节点,分别是node_d,node_e.怎么把一部分数据放到新加入的2个节点上面呢?

如果是基于range分区的话,一般是将region1进行分裂,分裂成region1_1,region_1_2,分裂操作本质上也是一个raft Task。假设分裂完成后region1_1的leader还是node_a,region1_2的leader变成了node_b。那么现在数据分布如下: node_a:region_1_1(leader),region_1_2 node_b:region_1_2(leader),region_1_1 node_c:region_1_1,region_1_2 node_d:无 node_e:无

可以看出现在有2个分片,每个分片都在不同节点上,但是node_d和node_e没有数据,是否可以变成下面的数据分布: node_a:region_1_1(leader) node_b:region_1_2(leader) node_c:region_1_1,region_1_2 node_d:region_1_1 node_e:region_1_2

这样就减轻了node_a和node_b的压力,实现了负载均衡。

怎么实现呢?可以看出上面过程经历了以下步骤: 1)region分裂; 2)node_d加入region_1_1; 3)node_e加入region_1_2; 4)node_a移除region_1_2; 5)node_b移除region_1_1;

其实region1分裂后,region_1_2可能还是在node_a上面,那么数据分布就变成了: node_a:region_1_1(leader),region_1_2(leader) node_b:region_1_1,region_1_2 node_c:region_1_1,region_1_2 node_d:无 node_e:无

可以明显看出leader负载不均衡了,所有写流量都会经过node_a上。是否可以将region_1_2的leader从node_a转移到node_b~e节点呢? 答案是不可以,可以转移leader,但是只能转移到node_b~e节点(原来leader节点的follower节点)

总结: 基于range分片的分布式存储负载均衡一般是先分裂,然后通过转移leader,增加follwer,移除follower来实现

经验分享 程序员 微信小程序 职场和发展