分布式存储--负载均衡

分布式存储--负载均衡 2023-01-05 359

分布式存储通常会将数据进行分片，常见的分片算法有range，hash。基于range的分片算法，是将数据按照大小拆分成多个范围，每个范围的数据作为一个分片，为了实现每个分片的高可用，会使用raft等一致性协议去冗余数据。这样一个节点就可能存在多个分片数据，但是只有主分片才能进行写服务，所以需要对每个节点的写流量进行负载均衡，即保证每个节点的主分片数量差不多。

假设原来集群有3个节点，分别是node_a,node_b,node_c,只有一个分片，称为region1，region1的主节点上node_a

如果现在往这个集群再加入2个节点，分别是node_d,node_e.怎么把一部分数据放到新加入的2个节点上面呢？

如果是基于range分区的话，一般是将region1进行分裂，分裂成region1_1,region_1_2,分裂操作本质上也是一个raft Task。假设分裂完成后region1_1的leader还是node_a,region1_2的leader变成了node_b。那么现在数据分布如下： node_a:region_1_1(leader),region_1_2 node_b:region_1_2(leader),region_1_1 node_c:region_1_1,region_1_2 node_d:无 node_e:无

可以看出现在有2个分片，每个分片都在不同节点上，但是node_d和node_e没有数据，是否可以变成下面的数据分布： node_a:region_1_1(leader) node_b:region_1_2(leader) node_c:region_1_1,region_1_2 node_d:region_1_1 node_e:region_1_2

这样就减轻了node_a和node_b的压力，实现了负载均衡。

怎么实现呢？可以看出上面过程经历了以下步骤： 1）region分裂； 2）node_d加入region_1_1； 3）node_e加入region_1_2； 4）node_a移除region_1_2； 5）node_b移除region_1_1；

其实region1分裂后，region_1_2可能还是在node_a上面，那么数据分布就变成了： node_a:region_1_1(leader),region_1_2(leader) node_b:region_1_1,region_1_2 node_c:region_1_1,region_1_2 node_d:无 node_e:无

可以明显看出leader负载不均衡了，所有写流量都会经过node_a上。是否可以将region_1_2的leader从node_a转移到node_b~e节点呢？答案是不可以，可以转移leader，但是只能转移到node_b~e节点（原来leader节点的follower节点）

总结：基于range分片的分布式存储负载均衡一般是先分裂，然后通过转移leader，增加follwer，移除follower来实现

免费搭建微信查券返利机器人来轻松赚佣金