分布式并行计算框架MapReduce详解
什么是计算框架?
是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。用于去解决或者处理某个复杂的计算问题
什么是并行计算框架?
是指为更快的计算某项任务或某项工作,将计算程序分发到多台服务器上,使每个服务器计算总任务的一部分,多台服务器同时计算的框架。
什么是分布式计算?
将问题分成多个小的部分,分配在多台计算机上,节约整体计算时间,提高计算效率。
理解MapReduce思想
比如有五桶垃圾,让一个人去倒,倒了五次。和让五个人去倒,倒了一次。 MapReduce的思想核心是“分而治之,先分后合”。即将一个大的、复杂的工作或任务,拆分成多个小的任务,并行处理,最终进行合并。适用于大量复杂的、时效性不高的任务处理场景(大规模离线数据处理场景)。 MapReduce由两部分组成,分别是Map 和Reduce两部分。 Map 负责分 Reduce 负责 合 这两个阶段合起来正是MapReduce思想的体现。
MapReduce的步骤
上一篇:
JS实现多线程数据分片下载
下一篇:
mac搭建大数据开发环境