这里我们直接用实例来讲解,Hive外部分区表有单分区多分区的不同情况,这里我们针对不同情况进行不同的方式处理。
- 利用overwrite合并单独日期的小文件
1、单分区
# 开启此表达式:`(sample_date)?+.+` set hive.support.quoted.identifiers=none;# 此sql是将20230713分区的小文件进行合并# `(sample_date)?+.+`:表示select 出除了sample_date分区字段以外的所有字段(字段较多的时候用这种方式很便捷)insert overwrite table`test`.`table`partition(sample_date='20230713')select`(sample_date)?+.+`from`test`.`table`where sample_date='20230713';
2、多分区
# 开启此表达式:`(sample_date|msgtype)?+.+`set hive.support.quoted.identifiers=none;# 此sql是将20230713分区的小文件进行合并(但是注意还有子分区:msgtype)# `(sample_date|msgtype)?+.+`:表示select 出除了sample_date和msgtype这两个分区字段以外的所有字段(字段较多的时候用这种方式很便捷)insert overwrite table`test`.`table`partition(sample_date='20230713')select`(sample_date|msgtype)?+.+`from`test`.`table`where sample_date='20230713';
- 利用overwrite合并一定分区范围内的小文件
1、单分区
注意:
合并一定分区范围内的小文件,select 后必须是 *
,否则会报错。
insert overwrite table`test`.`table`partition(sample_date)select*from`test`.`table`where sample_date between'20230712'and'20230713';
2、多分区
注意:
合并一定分区范围内的小文件不管单分区还是多分区,select 后必须都是 *
,否则会报错。
insert overwrite table`test`.`table`partition(sample_date, partition_name)select*from`test`.`table`where sample_date between'20230802'and'20230803';
本文转载自: https://blog.csdn.net/weixin_53543905/article/details/132695437
版权归原作者 bmyyyyyy 所有, 如有侵权,请联系我们删除。
版权归原作者 bmyyyyyy 所有, 如有侵权,请联系我们删除。