hive之拉链表实现过程及剖析

1、创建拉链表 create external if exists dwd_user_info( `id` string COMMENT 用户id, `name` string COMMENT 姓名, `start_date` string COMMENT 开始日期, `end_date` string COMMENT 结束日期 )COMMENT 用户信息拉链表

2、初始化拉链表(导入2020-11-08数据) insert overwrite table dwd_user_info select id, name, 2020-11-08, 9999-99-99 from ods_user_info where dt="2020-11-08"

3、创建用户信息临时表 create external if exists dwd_user_info_tmp( `id` string COMMENT 用户id, `name` string COMMENT 姓名, `start_date` string COMMENT 开始日期, `end_date` string COMMENT 结束日期 )COMMENT 用户信息临时表

4、导入2020-11-09数据 insert overwrite table dwd_user_info_tmp select * from ( (select id, name, 2020-11-09 as start_date, 9999-99-99 as end_date from ods_user_info where dt="2020-11-09" #取出ods层用户信息表11月9日数据,并制作初始拉链表 ) #这是新增数据及变化所有数据 unoin all (select t1.id, t1.name, t1.start_date, if(t2.id is not null and t1.end_date=9999-99-99,date_add(t2.dt,-1),t1.end_date) as end_date from dwd_user_info t1 #取出dwd层用户信息拉链表数据 left join (select * from ods_user_info where dt="2020-11-09") t2 #取出ods层用户信息表11月9日增量及变化数据 on t1.id = t2.id )#通过left join 找出不是新增的数据,而是修改的数据,并将修改的时间-1,原拉链表存在的数据不变,只是修改结束时间 ) t2.id is not null and t1.end_date=9999-99-99 判断t2不是新增数据 unoin all 用来去除原拉链表中没有变化的数据和新增数据重复的部分 ps: 这部分重复的数据可能是业务数据原来是1,后来改为2,再改为1,信息不变,但修改时间变了

5、临时表数据回写覆盖拉链表 insert overwrite table dwd_user_info select * from dwd_user_info_tmp;

经验分享 程序员 微信小程序 职场和发展