hive引擎的选择:tez和spark
背景
mr引擎在hive 2中将被弃用。官方推荐使用tez或spark等引擎。
选择
tez
使用有向无环图。内存式计算。
spark
可以同时作为批式和流式的处理引擎,减少学习成本。
问题&&不便
tez:
在hive sql中使用了union 或 join操作
tez会将任务切分,每个小任务,创建一个文件文件夹,如下:
这就会造成一个非常严重的问题,假如这张表的下文,使用这张表没有用tez,而是使用spark或者mr,
这两种引擎是不会遍历子文件夹下的内容的。查出来的数据为0。而我们很难约束,其他人使用同一种引擎,
所以tez在使用中抛弃。我们最中选择了spark引擎。
背景 mr引擎在hive 2中将被弃用。官方推荐使用tez或spark等引擎。 选择 tez 使用有向无环图。内存式计算。 spark 可以同时作为批式和流式的处理引擎,减少学习成本。 问题&&不便 tez: 在hive sql中使用了union 或 join操作 tez会将任务切分,每个小任务,创建一个文件文件夹,如下: 这就会造成一个非常严重的问题,假如这张表的下文,使用这张表没有用tez,而是使用spark或者mr, 这两种引擎是不会遍历子文件夹下的内容的。查出来的数据为0。而我们很难约束,其他人使用同一种引擎, 所以tez在使用中抛弃。我们最中选择了spark引擎。上一篇:
JS实现多线程数据分片下载
下一篇:
ElasticSearch获取索引信息