0


Hive3:表性能优化-分区与分桶

一、分区

1、概念

我们知道,一个

Hive

表,对应的

HDFS

是一个文件夹。
那么,当数据非常多的时候,存放在一个文件夹中,后期进行查询操作会影响性能。
所以,

Hive

引入了分区管理的方式。

本质就是,在

HDFS

中根据分区字段,建立

子层级文件夹


每个层级中,一个分区值,对应一个文件夹。
一般,我们用日期做分区字段。
分区字段可以是一个,也可是多个。
对应就是单层级和多层级目录。

可以简单的理解为,将一个大数据量的表,分成多个目录进行存储管理。
类似于

MySQL

的索引作用。

单层级
按月分区
在这里插入图片描述
多层级
按月,日两个层级分区
在这里插入图片描述

2、实操

元数据

周杰轮    语文    99
周杰轮    数学    66
周杰轮    英语    88
林均街    语文    66
林均街    数学    77
林均街    英语    96
王力鸿    语文    88
王力鸿    数学    86
王力鸿    英语    79
张学油    语文    99
张学油    数学    79
张学油    英语    89

2.1、基本语法

CREATETABLE myhive.score(...) PARTITIONED BY(分区列 列类型,......)ROW FORMAT DELIMITED FIELDSTERMINATEDBY'';

2.2、创建单分区表

刚创建分区表的时候,表目录

score

内部是没有分区目录的,因为没有数据。

CREATETABLE myhive.score(id string,cid string,score int)
PARTITIONED BY(month string)ROW FORMAT DELIMITED FIELDSTERMINATEDBY'\t';

2.3、加载数据到对应分区

可以看出,分区列也算是表的一个字段,但是,

数据来源不同

LOADDATA INPATH '/tmp/score.txt'INTOTABLE myhive.score partition(month='202408');LOADDATA INPATH '/tmp/score.txt'INTOTABLE myhive.score partition(month='202409');

在这里插入图片描述

2.4、HDFS目录

不同分区值的数据,在不同的目录中,单都属于一个层级的目录。
在这里插入图片描述

2.5、创建多分区表

CREATETABLE myhive.score2(id string,cid string,score int)
    PARTITIONED BY(year string,month string,day string)ROW FORMAT DELIMITED FIELDSTERMINATEDBY'\t';

2.6、加载数据到指定分区

注意:加载数据是,分区列必须对应赋值,少了或多了都会报错。

LOADDATALOCAL  INPATH '/home/atguigu/score.txt'INTOTABLE myhive.score2
    partition(year='2024',month='08',day='01');

在这里插入图片描述

2.7、HDFS目录

在这里插入图片描述

二、分桶

1、概念

分桶和分区一样,也是一种通过改变表的存储模式,从而完成对表优化的

一种调优方式

但和分区不同,

分区是分目录存储数据,分桶是分文件存储数据


Hive的分桶,对应的Hadoop中MapReduce程序的分区逻辑。关系到Reduce Task的线程数量
几个分桶,对应几个文件
在这里插入图片描述

2、实操

元数据

1    语文    周杰轮
2    英语    周杰轮
3    数学    王力鸿
4    音乐    周杰轮
5    体育    林均街
6    物理    王力鸿
7    历史    周杰轮

2.1、基本语法

开启分桶的自动优化(自动匹配reduce task数量和桶数量一致)

SET HIVE.ENFORCE.BUCKETING=true;

创建课程表

CREATETABLE course (c_id string,c_name string,t_id string)CLUSTEREDBY(c_id)INTO3 BUCKETS 
ROW FORMAT DELIMITED FIELDSTERMINATEDBY'\t';

2.2、加载数据

注意,分桶表加在数据,无法用

load data

方式。因为这个方式不走

MapReduce

程序。
只能用

insert select

方式。

  1. 创建一个临时表(外部表或内部表均可),通过load data加载数据进入表
  2. 然后通过insert select 从临时表向桶表插入数据
--向分桶表加载数据--1、先创建一个临时表createtable course_temp (c_id string,c_name string,t_id string)row format delimited fieldsterminatedby'\t';--2、向临时表中load data数据LOADDATALOCAL  INPATH '/home/atguigu/course.txt'INTOTABLE myhive.course_temp;--3、把临时表的数据insert select到分桶表中insert overwrite table myhive.course select*from myhive.course_temp cluster by(c_id);

2.3、分桶的底层逻辑

如上案例
创建了一个

3 bucket

的分桶表
所以,数据会分成三份存储
那么,划分逻辑是什么呢?

数据的三份划分

基于分桶列的值进行hash取模来决定

由于

load data

不会触发

MapReduce

,也就是没有计算过程(无法执行

Hash

算法),只是简单的移动数据而已,所以无法用于分桶表数据插入。

三、分桶分区综合应用

分区和分桶可以结合使用,以进一步提高查询性能和管理灵活性。通过将表进行分区和分桶,可以实现更细粒度的数据组织和查询优化。

例如,可以创建一个分区表,并在每个分区中使用分桶进行数据划分。以下是创建分区和分桶表的示例:

CREATETABLE my_partitioned_bucketed_table (
  col1 INT,
  col2 STRING
)
PARTITIONED BY(dt STRING, country STRING)CLUSTEREDBY(col1)INTO3 BUCKETS
SORTED BY(col2);

加载数据,需要同时指定分区和桶的编号:

INSERT OVERWRITE TABLE my_partitioned_bucketed_table PARTITION(dt='2023-01-01', country='China')SELECT col1, col2
FROM my_table;

四、总结

1、性能提升原理分析
分区表的性能提升:在指定分区列的前提下,减少被操作的数据量,从而提升性能。
分桶表的性能提升:基于分桶列的特定操作,如:过滤、JOIN、分组,均可带来性能提升。

标签: hive hadoop

本文转载自: https://blog.csdn.net/Brave_heart4pzj/article/details/141182194
版权归原作者 生产队队长 所有, 如有侵权,请联系我们删除。

“Hive3:表性能优化-分区与分桶”的评论:

还没有评论