图解hadoop的MR计算流程

图解hadoop的MR计算流程 2022-05-19 288

图解hadoop的MR计算流程：

1.左边部分是map阶段，右边部分是reduce阶段

1）我们可以看出左边的有四个map task，一般情况下一个map tasl处理一个split的数据，一个split一般情况下是一个代表一个block size（128M），所以我们可以看到的是要处理的数据大小是3x128M--4x128M，所以我们回启动几个map task一般是取决要处理数据的大小的;现在我们单独的对一个map进行分析，首先是input split，这个部分要调用多少次map方法是取决去我们输入进来的数据有多少行，每一行调用一次map方法（map方法里面是会对获取到的这一行数据进行切分，转化成k，v的方式），在数据进入到环形缓冲区（buffer in memory）的时候，一般会进行partition处理，分多少个区一般取决于你有几个的reduce，二这里的reduce有三个，分区的规则一般情况下是按照Hash去分Hash（key）%3，环形缓冲区的大小一般是100M,当推送到环形缓冲区的数据打到80%的时候，会自动的溢写数据，这里我们思考一个问题，为什么不是100%的时候才溢写数据呢，因为我们在溢写的过程中还会有数据进入到环形缓冲区，每一次溢写数据的时候会分成三个区，之后再将这些小文件marge成一个大的文件（marge on disk）

2）reduce阶段，每一个map task处理好数据之后分将数据分成三个分区，所以reduce会自动去拉去三个分区的数据，0号分区拉去0号分区的数据.....,其他三个map task也是一样，所以最后每一个reduce都拉去到很多个自己分区的数据(这里有4块)，然后再将这些小文件进行默认marge，marge的同时还要进行排序，然后进行Group分组，在reduce函数中，一个reduce Task会调用多少次reduce函数取决于多少个分组，在reduce函数之前，在map函数之后，我们有一个词叫做shuffer

MR比较慢的原因就是比较多的磁盘的输出

其次就是有大量的排序（默认是有排序的，排序的目的是为了分区和分组）

为什么分组之前就一定要排序呢？

1）在reduce task进入reduce函数之前就直接是排好序了，这样他分组就比较方便，从前到后去进行匹配key，前一个的key和后一个key相同的就放在一起，前后不同的就是另外一组。

2）在map也进行排序的原因是为了缓解reduce排序的压力，其实也就是combiner

3）排序用的是什么排序？用的是归并排序（还有插入排序）

spark

免费搭建微信查券返利机器人来轻松赚佣金

文章来自:IT技术分享网
分享地址:http://www.5ityx.cn/cate100/20485.html

上一篇： IDEA上Java项目控制台中文乱码

下一篇： .gitignore 文件不生效问题 & 解决方法

图解hadoop的MR计算流程

图解hadoop的MR计算流程 相关内容

聚合标签

图解hadoop的MR计算流程相关内容