0


hive静态分区和动态分区

一:静态分区和动态分区介绍

1、静态分区与动态分区的主要区别在于静态分区是手动指定,而动态分区是通过数据来进行判断。详细来说,静态分区的列实在编译时期,通过用户传递来决定的;动态分区只有在SQL执行时才能决定。

  • 静态分区:分区是指定的一个固定值
  • 动态分区:分区根据读入的值动态写(可理解为变量形式)
  • 静态分区的表不能被加到动态分区里,可以增加新的分区但是只对后来加入的新数据有意义,已经写入数仓的文件不能被重新分区了,只能重写!

2、Hive分区是在创建表的时候用Partitioned by 关键字定义的,但要注意,Partitioned by子句中定义的列是表中正式的列,但是Hive下的数据文件中并不包含这些列,因为它们是目录名。

  • 注意,动态分区不允许主分区采用动态列而副分区采用静态列,这样将导致所有的主分区都要创建副分区静态列所定义的分区:
  • 可以理解为主分区为一个目录,然后在主分区的目录里面又创建了一个目录,且主分区的一个目录下只有一个目录,理解为多此一举

二:静态分区和动态分区区别

比如要新建一个增量表(inc),也不需要回刷数据,只涉及到一天的数据,那么选择静态分区,每天一个分区就好,新建的时候选择pt_dt作为分区键,进行分区设计;

比如要新建一个增量表(inc),需要回刷数据,例如回刷过去八天数据,那么就需要选择动态分区,还是每天一个分区,新建的时候选择pt_dt作为分区键,进行分区设计;

1)也就是说静态分区和动态分区与每天一个分区没有任何关系,只是与insert时候有关系

2)INSERT OVERWRITE TABLE $target.table PARTITION(pt_dt = '${当天}') 静态分区写pt_dt = '${当天}',动态分区写‘时间字段的变量/pt_dt'。

3)静态分区每天插入一天数据,动态分区每天插入对应的多天数据

PARTITION(pt_dt = %%%)按照该字段值进行分区

4)不论是动态还是静态分区,都支持insert overwrite(覆盖写)、insert into(追加写)

5)写入分区仅仅包括两个操作,更新分区的<元数据>和其对应的<数据文件>,如果分区已经存在了,则不会再重新创建该分区了,仅仅更新数据文件

三:样例

1)静态写分区

    a.定义:select过滤出来的数据写入sql中显示指定的分区值中。例如下面的例子,将test.source中20180816号的数据全部写入test.target的20180817这一天的分区中

    b.适用场景:select出来的数据要写入某一个分区中。

2)动态写分区

    a.定义:select出来的数据基于分区字段的不同值 动态的写入到对应的分区中。例如下面的例子,将test.source中20180816号和20180817的数据 分别写入test.target的dt=20180816和dt=20180817的分区中

    b.适用场景:select出来的数据要写入多个分区中

四:动态分区参数

参数

默认值

说明

注意

hive.exec.

dynamic.partition

false

是否打开动态分区

动态写分区时候要开启

hive.exec.dynamic.

、partition.mode

strict

打开动态分区后,动态分区的模式,有 strict 和 nonstrict 两个值可选

strict 要求至少包含一个静态分区列,nonstrict 则无此要求。

动态写分区时候要开启

hive.exec.max.

dynamic.partitions

1000

所允许写出的最大的动态分区的个数的总和

如果最后写出的总的分区数量大于此值,建议适当增大。

例如,重导一个按照日期分区的分区表,且重导3年数据,最后会写出

3653个分区,可以增大到2000(因为>3653个分区)

hive.exec.max.dynamic.

partitions.pernode

150

每个reducer可以写出的最大的动态分区数量

该参数值被限制了,无法更改

每写一个分区对应写一个hdfs文件

如果不限制,会导致同一时段集群写操作过多

影响集群稳定性

hive.exec.default.partition.name

__HIVE_DEFAULT

PARTITION_

默认的动态分区的名称,当动态分区值为''或者null或者无法解析时,使用此名称。

标签: hive 大数据 hadoop

本文转载自: https://blog.csdn.net/yezonghui/article/details/126873924
版权归原作者 斑马! 所有, 如有侵权,请联系我们删除。

“hive静态分区和动态分区”的评论:

还没有评论