hive引擎的选择：tez和spark

hive引擎的选择：tez和spark 2022-05-28 884

背景

mr引擎在hive 2中将被弃用。官方推荐使用tez或spark等引擎。

选择

tez

使用有向无环图。内存式计算。

spark

可以同时作为批式和流式的处理引擎，减少学习成本。

问题&&不便

tez：

在hive sql中使用了union 或 join操作

tez会将任务切分,每个小任务，创建一个文件文件夹，如下：

这就会造成一个非常严重的问题，假如这张表的下文，使用这张表没有用tez，而是使用spark或者mr，

这两种引擎是不会遍历子文件夹下的内容的。查出来的数据为0。而我们很难约束，其他人使用同一种引擎，

所以tez在使用中抛弃。我们最中选择了spark引擎。

背景 mr引擎在hive 2中将被弃用。官方推荐使用tez或spark等引擎。选择 tez 使用有向无环图。内存式计算。 spark 可以同时作为批式和流式的处理引擎，减少学习成本。问题&&不便 tez：在hive sql中使用了union 或 join操作 tez会将任务切分,每个小任务，创建一个文件文件夹，如下：这就会造成一个非常严重的问题，假如这张表的下文，使用这张表没有用tez，而是使用spark或者mr，这两种引擎是不会遍历子文件夹下的内容的。查出来的数据为0。而我们很难约束，其他人使用同一种引擎，所以tez在使用中抛弃。我们最中选择了spark引擎。

免费搭建微信查券返利机器人来轻松赚佣金

文章来自:IT技术分享网
分享地址:http://www.5ityx.cn/cate112/41125.html

上一篇： JS实现多线程数据分片下载

下一篇： ElasticSearch获取索引信息

hive引擎的选择：tez和spark

背景

选择

问题&&不便

hive引擎的选择：tez和spark 相关内容

聚合标签