一、分区
1、概念
我们知道,一个
Hive
表,对应的
HDFS
是一个文件夹。
那么,当数据非常多的时候,存放在一个文件夹中,后期进行查询操作会影响性能。
所以,
Hive
引入了分区管理的方式。
本质就是,在
HDFS
中根据分区字段,建立
子层级文件夹
。
每个层级中,一个分区值,对应一个文件夹。
一般,我们用日期做分区字段。
分区字段可以是一个,也可是多个。
对应就是单层级和多层级目录。
可以简单的理解为,将一个大数据量的表,分成多个目录进行存储管理。
类似于
MySQL
的索引作用。
单层级
按月分区
多层级
按月,日两个层级分区
2、实操
元数据
周杰轮 语文 99
周杰轮 数学 66
周杰轮 英语 88
林均街 语文 66
林均街 数学 77
林均街 英语 96
王力鸿 语文 88
王力鸿 数学 86
王力鸿 英语 79
张学油 语文 99
张学油 数学 79
张学油 英语 89
2.1、基本语法
CREATETABLE myhive.score(...) PARTITIONED BY(分区列 列类型,......)ROW FORMAT DELIMITED FIELDSTERMINATEDBY'';
2.2、创建单分区表
刚创建分区表的时候,表目录
score
内部是没有分区目录的,因为没有数据。
CREATETABLE myhive.score(id string,cid string,score int)
PARTITIONED BY(month string)ROW FORMAT DELIMITED FIELDSTERMINATEDBY'\t';
2.3、加载数据到对应分区
可以看出,分区列也算是表的一个字段,但是,
数据来源不同
。
LOADDATA INPATH '/tmp/score.txt'INTOTABLE myhive.score partition(month='202408');LOADDATA INPATH '/tmp/score.txt'INTOTABLE myhive.score partition(month='202409');
2.4、HDFS目录
不同分区值的数据,在不同的目录中,单都属于一个层级的目录。
2.5、创建多分区表
CREATETABLE myhive.score2(id string,cid string,score int)
PARTITIONED BY(year string,month string,day string)ROW FORMAT DELIMITED FIELDSTERMINATEDBY'\t';
2.6、加载数据到指定分区
注意:加载数据是,分区列必须对应赋值,少了或多了都会报错。
LOADDATALOCAL INPATH '/home/atguigu/score.txt'INTOTABLE myhive.score2
partition(year='2024',month='08',day='01');
2.7、HDFS目录
二、分桶
1、概念
分桶和分区一样,也是一种通过改变表的存储模式,从而完成对表优化的
一种调优方式
但和分区不同,
分区是分目录存储数据,分桶是分文件存储数据
。
Hive的分桶,对应的Hadoop中MapReduce程序的分区逻辑。关系到Reduce Task的线程数量
几个分桶,对应几个文件
2、实操
元数据
1 语文 周杰轮
2 英语 周杰轮
3 数学 王力鸿
4 音乐 周杰轮
5 体育 林均街
6 物理 王力鸿
7 历史 周杰轮
2.1、基本语法
开启分桶的自动优化(自动匹配reduce task数量和桶数量一致)
SET HIVE.ENFORCE.BUCKETING=true;
创建课程表
CREATETABLE course (c_id string,c_name string,t_id string)CLUSTEREDBY(c_id)INTO3 BUCKETS
ROW FORMAT DELIMITED FIELDSTERMINATEDBY'\t';
2.2、加载数据
注意,分桶表加在数据,无法用
load data
方式。因为这个方式不走
MapReduce
程序。
只能用
insert select
方式。
- 创建一个临时表(外部表或内部表均可),通过
load data
加载数据进入表 - 然后通过
insert select
从临时表向桶表插入数据
--向分桶表加载数据--1、先创建一个临时表createtable course_temp (c_id string,c_name string,t_id string)row format delimited fieldsterminatedby'\t';--2、向临时表中load data数据LOADDATALOCAL INPATH '/home/atguigu/course.txt'INTOTABLE myhive.course_temp;--3、把临时表的数据insert select到分桶表中insert overwrite table myhive.course select*from myhive.course_temp cluster by(c_id);
2.3、分桶的底层逻辑
如上案例
创建了一个
3 bucket
的分桶表
所以,数据会分成三份存储
那么,划分逻辑是什么呢?
数据的三份划分
基于分桶列的值进行hash取模来决定
由于
load data
不会触发
MapReduce
,也就是没有计算过程(无法执行
Hash
算法),只是简单的移动数据而已,所以无法用于分桶表数据插入。
三、分桶分区综合应用
分区和分桶可以结合使用,以进一步提高查询性能和管理灵活性。通过将表进行分区和分桶,可以实现更细粒度的数据组织和查询优化。
例如,可以创建一个分区表,并在每个分区中使用分桶进行数据划分。以下是创建分区和分桶表的示例:
CREATETABLE my_partitioned_bucketed_table (
col1 INT,
col2 STRING
)
PARTITIONED BY(dt STRING, country STRING)CLUSTEREDBY(col1)INTO3 BUCKETS
SORTED BY(col2);
加载数据,需要同时指定分区和桶的编号:
INSERT OVERWRITE TABLE my_partitioned_bucketed_table PARTITION(dt='2023-01-01', country='China')SELECT col1, col2
FROM my_table;
四、总结
1、性能提升原理分析
分区表的性能提升:在指定分区列的前提下,减少被操作的数据量,从而提升性能。
分桶表的性能提升:基于分桶列的特定操作,如:过滤、JOIN、分组,均可带来性能提升。
版权归原作者 生产队队长 所有, 如有侵权,请联系我们删除。