静态分区与动态分区的区别:
静态分区是先把分区表创好,然后手动把数据导入到对应的分区里面去。
静态分区实在编译期间指定分区名。
静态分区支持load、insert两种插入方式。
静态分区是用于分区少,分区名可以明确的数据。
动态分区是有一份数据集(2015-2022年的),按照数据集的字段给动态的生成分区。
动态分区实在SQL执行的时候确定的。
动态分区前需打开:set hive.exec.dynamic.partition.mode=nonstrict;
动态分区只能用insert方式。
动态分区通过普通表选出的字段包含分区字段,分区字段放在最后,多个分区字段按照分区顺序放置。- 比如 [订单编号,订单创建时间,订单详情编号,订单价格,订单配送员...]- 订单创建时间(2021-11-12 12:22:49)把这个字段作为分区的字段。2021-11 这个作为分区条件。
面试题:什么时候使用静态分区,什么时候使用动态分区?
1、静态分区
- 静态分区是指增加数据是需要手动指定具体的分区目录
- 静态分区的列实在编译时期,通过用户传递列名来决定的
- 静态分区不管有没有数据都将会创建该分区
//分区的本质就是文件夹
//静态分区实例:
//创建外部分区表 ratings
create external table ratings(
user_id integer,
movie_id integer,
`timestamp` bigint
)partitioned by (rating decimal(2,1)) //decimal(2,1) 两个数字、一位小数
row format delimited
fields terminated by ','
stored as textfile;
//查看表ratings定义
desc formatted ratings;
//静态分区数据挂载
//手动加载数据到分区表中,静态分区一次只能操作一个
load data local inpath '/root/kb18/ratings_5.0.csv'
into table ratings partition (rating=5.0);
select * from ratings limit 20;
- HDFS在你指定数据库下,即会存在 ratings/rating=5的文件。
2、动态分区
- 动态分区增加数据时不用手动指定分区目录,而是由系统通过数据来进行判断。
- 动态分区实在SQL执行的时候确定的。
- 动态分区是有结果集将创建分区,否则不创建。
- 动态分区虽然方便快捷,但创建太多分区时可能会占用大量资源。
//动态分区实例:
//创建外部分区表ods_ratings
create external table ods_ratings
(
user_id integer,
movie_id integer,
rating decimal(2, 1),
`timestamp` bigint
)
row format delimited
fields terminated by ','
stored as textfile
location '/kb18/hive/ratings_dir' //数据存在hdfs路径
tblproperties ("skip.header.line.count"="1"); //除去首行
select * from ods_ratings limit 10;
//查看模式 默认为strict 此模式不支持动态分区
set hive.exec.dynamic.partition.mode;
//设置为nonstrict
set hive.exec.dynamic.partition.mode=nonstrict;
//写入表 指定分区字段为rating
insert overwrite table ratings partition(rating)
select user_id,movie_id,`timestamp`,rating from ods_ratings;
- HDFS上生成分区表:
版权归原作者 东南枝上的大雄 所有, 如有侵权,请联系我们删除。