hive与Oracle

一、hive底层逻辑

GROUP BY 原理

select name,count(num) from tb group by name

map 阶段，将 group by 后的字段组合作为 key，如果 group by 单字段那么 key 就一个。
将 group by 之后要进行的聚合操作字段作为值，如要进行 count，则 value 是 1；如要 sum 另一个字段，则 value 就是该字段。
shuffle 阶段，按照 key 的不同分发到不同的 reducer。注意此时可能因为 key 分布不均匀而出现数据倾斜的问题。
reduce 阶段，将相同 key 的值累加或作其他需要的聚合操作，得到结果。

JOIN原理

count(distinct) 原理

select num,count(distinct name) as count_name from tb

MapReduce过程详解及其性能优化

Hadoop作业称为Job，Job分为Map、Shuffle和Reduce阶段，MAP和Reduce的Task都基于JVM进程运行的。
MAP阶段：从HDFS读取数据，split文件产生task，通过对应数量的Map处理，map输出的每一个键值对通过key的hash值计算一个partition，数据通过环形缓冲区，sort、spill、merge生成data和index文件；
Reduce阶段：reduce通过Shuffle Copy属于自己的那部分数据，然后sort、spill、merge形成一个大文件，调用reduce函数进行处理.

二、数据倾斜场景以及解决方法

常见的数据倾斜场景有group by , join , count(distnct)

1 group by

原因:默认情况下,map阶段相同的 key 会分发到同一个reduce 端聚合,热点 key 导致 group by 聚合倾斜

解决办法:

---开启map 端聚合: set hive.map.merge.aggr= true; 一般是默认开启 ,减少数据传输及在reduce阶段的处理时间.

set hive.groupby.mapaggr.checkinterval=10000; 设置在map端聚合操作的条数.当大于该值时才会在map端聚合

---开启负载均衡: **set hive.groupby.skewindata=true; **该设置会在数据出现倾斜时,将一个group by 的执行计划拆分成2个阶段MR,第一个阶段将key 随机分发到不同的reduce进行聚合,如何第二阶段MR会基于前一阶段预处理的结果,将相同的key分发到同一个reduce算子,执行聚合操作

---小文件过多时,合并小文件: set hive.merge.mapredfiles=true;

**2 join **

a .小表 join 大表

原因:主要是热点key 导致,在shuffle 过程中,相同的key 会基于hash 分发到同一个 reduce 算子上,导致join 倾斜

解决办法:

---开启map 端** join: set hive.auto.convert.join=true;** 一般默认是打开的

开启mapjoin后,join时会在map端将小表缓存到内存中(缓存为hash table) ,在map 端执行 join.

小表默认是1000行或者25MB大小,可以设置参数提高小表的阈值:

set hive.mapjoin.smalltable.filesize=25000000;

b 大表 join 大表

原因:跟大表join 下表倾斜原因差不多,存在热点key ,或者大量无用的空key,导致倾斜

解决办法:

---运行时优化:** set hive.optimize.skewjoin=true;** 开启倾斜关联开启对倾斜数据join的优化

设置join 倾斜阈值: set hive.skewjoin.key=100000; 当join对应的key记录的条数超过10000,就可以人为这个key 发生了数据倾斜,会对其进行分拆优化

---编译时优化: set hive.optimize.skewjoin.compiletime=true; 可以在编译SQL时将计划优化完成,但是需要在建表时指定数据倾斜元数据信息

---union 优化:** set hive.optimize.union.remove=true;**

一般情况下,这三种优化都要同时开启

除了以上参数外,还可以通过子查询剔除空key, 空key 转为随机字符串,大表拆分成小表 ,分别join 再 union 等方式进行优化

3 **count(distinct) **

原因:所有key 会分发到同一个reduce 进行去重统计个数,数据量较大时会导致运行时间过长

解决办法:改成group by

SELECT COUNT(DISTINCT id)
FROM table;
改成
SELECT COUNT(t1.id) 
FROM ( SELECT id 
       FROM tabe
       GROUP BY id
      ) t1
;

补充:**4 map和reduce **

原因1:当出现小文件时,需要合并小文件

解决办法:

reduce端输出合并: set hive.merge.mapredfiles=true;

原因2:输入数据存在大块和小块的严重问题

解决办法:

任务输入前做文件合并,将小文件合并成大文件:** set hive.merge.mapredfiles=true;**

原因3:单个文件大小稍大于配置的block 块的大小

解决办法:

此时需要增加map task的个数: set mapred.map.tasks=25;

原因4:文件大小适中,但是map端计算量非常大

解决办法:

增加map和reduce个数:set mapre.map.tasks=250;

** set mapre.reduce.tasks=250;**

三、hive调优

1.建表优化

** a 分区优化**

建分区表,使用这个字段做分区字段,在查询的时候,使用分区字段来过滤就可以避免全表扫描,只需要扫描这张表的一个分区的数据即可

1.分区表定义

分区表实际上就是对应一个hdfs文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件.hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集,在查询时通过where子句中的表达式选择查询所需要的指定的分区,这样查询效率会提高很多.(谓词下推)

表分区就是会在表目录下面针对不同的分区创建一个子目录,如果有二级分区,那么会在一级子目录下面计息创建子目录.hive中的分区字段是表外字段,mysql中的分区字段是表内字段

2.创建分区表语法

create table dept_partition(deptno int,dname string,loc string)
partitioned by (month string)---按月分组
row format delimited fields

分区字段是 month,分区的数据类型是string,分区字段不能是表里的字段

3.创建二级分区语法

create table dept_partition(deptno int,dname string,loc string)
partitioned by (month string,year string)---按月和年分组
row format delimited fields

create table if not exists employee_partitioned (
  `name` string,
  `employee_id` int,
  `number` string)
partitioned by (
  `year` int,
  `month` int)
row format delimited fields terminated by '|'
stored as textfile;

year 为一级分区，month为二级分区

4.静态分区与动态分区

4.1 静态分区(默认)

4.1.1静态分区创建表

create table ods_users(
userid string,
username string,
birthday string,
sex string 
)
row format delimited fields terminated by ',' 
location '/pw';

4.1.2静态分区操作：增加或删除分区语法

-- 创建分区
//单个分区创建
alter table employee_partitioned add partition(year='2019',month='6') ;
//多个分区创建
alter table employee_partitioned add partition(year='2020',month='6') partition(year='2020',month='7');
-- 删除分区
//单个分区删除
alter table employee_partitioned drop partition (year='2019',month='6');
//多个分区删除
alter table employee_partitioned partition (year='2020','month=6'), partition (year='2020',month='7');

4.1.3静态分区加载插入数据

load data local inpath '/文件路径' into table '表名' partition'(分区信息)'

hive> load data local inpath '/usr/local/wyh/test_data/user_partition1.txt' 
into table part-demo1 partition(testdate='2022-04-28');

-- 静态分区加载二级分区

load data local inpath '/文件路径' into table '表名' partition'(分区信息1,分区信息2)'

hive> load data local inpath '/usr/local/wyh/test_data/user_partition2.txt' 
into table part_demo2 partition(year='2022',month='03');

静态分区加载插入数据

insert into 将数据添加到表中
insert overwrite 会覆盖表中已有的数据

insert into userinfos partition(sex='male') 
select userid,username,birthday from ods_users where sex='male';

insert into userinfos partition(sex='female') 
select userid,username,birthday from ods_users where sex='female';

//将本地文件传入hdfs中
Hadoop dfs -put /data/employee_hr.txt /tmp/employee
//将文件映射为相应的表
create table if not exists employee_hr(
    name string,
    employee_id int,
    number string,
    start_date date)
    row format delimited fields terminated by '|'
    location '/data/employee_hr.txt';

//根据查询所得的结果传入相应的文件夹中
insert overwrite table employee_partitioned  partition(year=2020,month=8)
select name,employee_id,number from employee_hr 
where year(start_date)=2020 and month(start_date)=8;

4.2动态分区

4.2.1开启动态分区

动态分区默认是没有开启。开启后默认是以严格模式执行的，在这种模式下需要至少一个分区字段是静态的

关闭严格分区模式

动态分区模式时是严格模式，也就是至少有一个静态分区。
set hive.exec.dynamic.partition.mode=nostrict //分区模式，默认nostrict
set hive.exec.dynamic.partition=true //开启动态分区,默认true
set hive.exec.max.dynamic.partitions=1000 //最大动态分区数,默认1000
    set hive.exec.max.dynamic.partitions.pernode =100 ：单个节点上的mapper/reducer允许创建的最大分区
strict：最少需要有一个是静态分区

nostrict：可以全部是动态分区

4.2.2动态分区的操作

（1）开启动态分区功能（默认true，开启）
set hive.exec.dynamic.partition=true
（2）设置为非严格模式（动态分区的模式，默认strict，表示必须指定至少一个分区为静态分区，nonstrict模式表示允许所有的分区字段都可以使用动态分区。）
set hive.exec.dynamic.partition.mode=nonstrict
（3）在所有执行MR的节点上，最大一共可以创建多少个动态分区。默认1000
set hive.exec.max.dynamic.partitions=1000
（4）在每个执行MR的节点上，最大可以创建多少个动态分区。该参数需要根据实际的数据来设定。比如：源数据中包含了一年的数据，即day字段有365个值，那么该参数就需要设置成大于365，如果使用默认值100，则会报错。
set hive.exec.max.dynamic.partitions.pernode=100
（5）整个MR Job中，最大可以创建多少个HDFS文件。默认100000
set hive.exec.max.created.files=100000
（6）当有空分区生成时，是否抛出异常。一般不需要设置。默认false
set hive.error.on.empty.partition=false

4.2.2创建动态分区表

create table if not exists dyp1

(uid int,

commentid bigint,

recommentid bigint)

partitioned by(year int,month int,day int)

row format delimited fields terminated by '\t';

create table myusers( 
userid string,
username string,
birthday string
) 
partitioned by (sex string)
row format delimited fields terminated by ','
 stored as textfile;

--创建临时表

create table if not exists tmp
(uid int,
commentid bigint,
recommentid bigint,
year int,
month int,
day int)
row format delimited fields terminated by '\t';

4.2.3动态分区加载数据

load data local inpath '/root/Desktop/comm' into table tmp;

4.2.4插入数据(不指定分区值,该字段相同值就会分为一个分区)

insert into myusers partition(sex) select * from ods_users;

--严格模式动态分区插入数据

insert into table dyp1 partition(year=2016,month,day)

select uid,commentid,recommentid,month,day from tmp;

--为非严格模式动态分区插入数据

insert into table dyp2 partition(year,month,day)

select uid,commentid,recommentid,year,month,day from tmp;

5.静态分区和动态分区的区别及应用场景

5.1静态分区和动态分区的区别(静态分区的列是在编译时期，通过用户传递来决定的；动态分区只有在SQL执行时才能决定)
静态分区动态分区①静态分区是在编译期间指定的指定分区名①根据分区字段的实际值，动态进行分区②支持load和insert两种插入方式②是在sql执行的时候进行分区load方式
会将分区字段的值全部修改为指定的内容
一般是确定该分区内容是一致的时候才会使用③需要先将动态分区设置打开insert方式
必须先将数据放在一个没有设置分区的普通表中
该方式可以在一个分区内存储一个范围的内容
从普通表中选出的字段不能包含分区字段④只能用insert方式③适用于分区数少，分区名可以明确的数据⑤通过普通表选出的字段包含分区字段，分区字段放置在最后，多个分区字段按照分区顺序放置
5.2静态分区与动态分区的应用场景

静态分区：适合已经确认分区的文件，分区相对较少的，适合增量导入的应用场景

动态分区：适合根据时间线做分区，分区比较多的，适合全量导入的场景

6.查看分区

show table dept_partition;

7.显示分区

show partitions iteblog;

7.删除分区

alter  table dept_partition drop partition(month='2017-07') ,
partition(month='2017-08') ,
partition(month='2017-09');----注意逗号

8.增加分区

alter  table dept_partition 
add partition(month='2017-07') 
partition(month='2017-08') 
partition(month='2017-09');---直接空格,没有逗号

9.修改分区

ALTER TABLE iteblog PARTITION (dt='2008-08-08') 
SET LOCATION "new location";

ALTER TABLE iteblog PARTITION (dt='2008-08-08') 
RENAME TO PARTITION (dt='20080808');

10.修复分区

修复分区就是重新同步hdfs上的分区信息

msck repair table userinfos;

11.分区表的注意事项

--让分区表和数据产出关联的三种方式

先创建hdfs目录，再上传文件，然后刷新分区表的元数据（MSCK REPAIR TABLE 表名）

先创建hdfs目录，再上传文件，然后创建分区（alter table 表名 add partition。。。）

先创建hdfs目录，然后通过load语句加载数据文件。

--分区注意细节

（1）、尽量不要用动态分区，因为动态分区的时候，将会为每一个分区分配reducer数量，当分区数量多的时候，reducer数量将会增加，对服务器是一种灾难。

（2）、动态分区和静态分区的区别，静态分区不管有没有数据都将会创建该分区，动态分区是有结果集将创建，否则不创建。

（3）、hive动态分区的严格模式和hive提供的hive.mapred.mode的严格模式。

b 分桶优化

#创建分桶表
create table stu_buck(id int, name string)
clustered by(id)
into 4 buckets
row format delimited fields terminated by '\t';#创建中间表create table stu(id int, name string) row format delimited fields terminated by '\t';#导入数据到中间表load data local inpath '/opt/module/datas/student.txt' into table stu;#开启分桶set hive.enforce.bucketing=true;#设置reduce数量为-1set mapreduce.job.reduces=-1;#向分桶表中导入数据insert into table stu_buck select id, name from stu;

1.创建一个分桶表

create table test_buck(id int, name string)
clustered by(id) ----按照id分桶
into 6 buckets----分6个桶
row format delimited fields terminated by '\t';
注意：CLUSTERED BY来指定划分桶所用列和划分桶的个数。

2.导入数据---严格模式

开启分桶表的功能

set hive.enforce.bucketing=true;

设置reduce的个数

set mapreduce.job.reduces=6;

创建一个临时表,并导入数据

create table temp_buck(id int, name string)
row format delimited fields terminated by '\t';
load data local inpath '/tools/test_buck.txt' into table temp_buck;

使用insert select 来间接把数据导入到分桶表

insert into table test_buck select id, name from temp_buck;

3.查询分桶表的数据

select * from test_buck

4.分桶抽样:

select * 
from  student
tablesmaple (bucket 3 out of 32);

随机采样:

select *
from student
distribute by rang()
sort by rand()
limit 100
;

数据块抽样:

select *
from student 
tablesmaple(10 percent);
--百分比

select *
from student 
tablesmaple(10 rows);
--行数

select *
from student 
tablesmaple(10 M);
--大小块

c 存储优化

textfile: 行存储 .每行都以'\n'结尾,数据不做压缩时,磁盘开销较大

可以使用Gzip压缩算法，但压缩后的文件不支持split

在反序列化过程中，必须逐个字符判断是不是分隔符和行结束符，因此反序列化开销会比SequenceFile高几十倍。

建表代码

${建表语句}
stored as textfile;
##########################################插入数据########################################
set hive.exec.compress.output=true; --启用压缩格式
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; 
 --指定输出的压缩格式为Gzip 
set mapred.output.compress=true;   
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;     
insert overwrite table textfile_table select * from T_Name;

sequence file:二进制文件,以key-value的形式序列化到文件中,

存储方式：行存储

,可分割的文件格式，支持Hadoop的block级压缩。

sequencefile支持三种压缩选择：NONE，RECORD，BLOCK。Record压缩率低，RECORD是默认选项，通常BLOCK会带来较RECORD更好的压缩性能。

优势是文件和hadoop api中的MapFile是相互兼容的

建表代码


${建表语句}
SORTED AS SEQUENCEFILE;    --将Hive表存储定义成SEQUENCEFILE
##########################################插入数据########################################
set hive.exec.compress.output=true; --启用压缩格式
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; 
--指定输出的压缩格式为Gzip 
set mapred.output.compression.type=BLOCK;   --压缩选项设置为BLOCK
set mapred.output.compress=true; 
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec; 
insert overwrite table textfile_table select * from T_Name;

RC file: 数据块按行分块,列式存储.

首先，RCFile 保证同一行的数据位于同一节点，因此元组重构的开销很低
其次，像列存储一样，RCFile 能够利用列维度的数据压缩，并且能跳过不必要的列读取
数据追加：RCFile不支持任意方式的数据写操作，仅提供一种追加接口，这是因为底层的 HDFS当前仅仅支持数据追加写文件尾部。
行组大小：行组变大有助于提高数据压缩的效率，但是可能会损害数据的读取性能，因为这样增加了 Lazy 解压性能的消耗。而且行组变大会占用更多的内存，这会影响并发执行的其他MR作业。考虑到存储空间和查询效率两个方面，Facebook 选择 4MB 作为默认的行组大小，当然也允许用户自行选择参数进行配置。

建表代码

${建表语句}
stored as rcfile;
-插入数据操作：
set hive.exec.compress.output=true; 
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; 
set mapred.output.compress=true; 
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec; 
insert overwrite table rcfile_table select * from T_Name;

ORC file: 数据块按行分块,列式存储.RC file的升级版,压缩快,快速列存取

parquet file:列式存储. 对于大型查询是高效的,但是对于扫描特定表格中的特定列查询,特别有用,默认snappy压缩,Parquet文件是以二进制方式存储的，所以是不可以直接读取的，文件中包括该文件的数据和元数据，因此Parquet格式文件是自解析的

hive表的数据存储格式一般选择：orc或parquet。压缩方式一般选择snappy，lzo。

d 压缩优化

压缩方式
压缩方式压缩后大小压缩速度GZIP中中BZIP2小慢LZO大快Snappy大快
Hadoop编码解码器
压缩格式对应的编码解码器DEELATEorg.apache.hadoop.io.compress.DefaultCodecGZIPorg.apache.hadoop.io.compress.GzipCodecBZIP2org.apache.hadoop.io.compress.BZip2CodecLZOcom.hadoop.compression.lzo.LzopCodec---中间输出使用Snappyorg.apache.hadoop.io.compress.SnappyCodec--中间输出使用
hive压缩设置的方法

(1). Hive中间数据压缩

hive.exec.compress.intermediate：默认该值为false，设置为true为激活中间数据压缩功能

开启Hive的中间数据压缩功能，就是在MapReduce的shuffle阶段对mapper产生的中间结果数据压缩。在这个阶段，优先选择一个低CPU开销的算法。

mapred.map.output.compression.codec：该参数是具体的压缩算法的配置参数，SnappyCodec比较适合在这种场景中编解码器，该算法会带来很好的压缩性能和较低的CPU开销。设置如下：

set hive.exec.compress.intermediate=true;

set mapred.map.output.compression.codec

=org.apache.hadoop.io.compress.SnappyCodec;

set mapred.map.output.compression.codec

**=com.hadoop.compression.lzo.LzoCodec; **

(2). Hive最终数据压缩

hive.exec.compress.output：用户可以对最终生成的Hive表的数据通常也需要压缩。该参数控制这一功能的激活与禁用，设置为true来声明将结果文件进行压缩。
mapred.output.compression.codec：将hive.exec.compress.output参数设置成true后，然后选择一个合适的编解码器，如选择SnappyCodec。设置如下：
set hive.exec.compress.output=true ;

set mapred.output.compression.codec

=org.apache.hadoop.io.compress.SnappyCodec;

压缩模式说明

(1). 压缩模式评价

压缩比：压缩比越高，压缩后文件越小，所以压缩比越高越好。
压缩时间：越快越好。
已经压缩的格式文件是否可以再分割：可以分割的格式允许单一文件由多个Mapper程序处理，可以更好的并行化。

压缩格式: bzip2, gzip, lzo, snappy等
压缩比：bzip2>gzip>lzo bzip2最节省存储空间
解压速度：lzo>gzip>bzip2 lzo解压速度是最快的

(2). 压缩模式对比

BZip2有最高的压缩比但也会带来更高的CPU开销，Gzip较BZip2次之。如果基于磁盘利用率和I/O考虑，这两个压缩算法都是比较有吸引力的算法。
LZO和Snappy算法有更快的解压缩速度，如果更关注压缩、解压速度，它们都是不错的选择。 LZO和Snappy在压缩数据上的速度大致相当，但Snappy算法在解压速度上要较LZO更快。
Hadoop的会将大文件分割成HDFS block(默认64MB)大小的splits分片，每个分片对应一个Mapper程序。在这几个压缩算法中 BZip2、LZO、Snappy压缩是可分割的，Gzip则不支持分割。

2.sql优化

a. 查看hive执行计划

增加关键词 extended 可以查看更加详细的执行计划

explain [extended] query

b. 列裁剪

取数值取查询需要用到的列,默认是true

set hive.optimize.cp=true

c. 分区裁剪

对应SQL解析中逻辑优化器columnpruner

select * from student where department='AAAA';

set hive.optimize.pruner=true

d. 谓词下推

where 语句提前执行,减少下游处理的数据量,对应的逻辑优化器是 predicatepushdown

select a.*,b.*
from a 
join b
on a.id=b.id
where b.age>20;

改成

select a*,c.*
from a
join (select * 
      from b
      where age>20
      ) c
on a.id=c.id

e. 合并小文件

map端输入合并,合并文件之后按照block的大小分割

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

map和reduce 输出合并

--合并map 输出文件,默认值为true

set hive.merge.mapfiles=true;

--合并reduce 端输出文件,默认值是false

set hive.merge.maprefiles=true;

--合并文件的大小

set hive.merge.size.per.task=256000000;

--每个map 最大分割大小

set mapred.max.size.split=256000000;

--一个节点上spilt 的最少值

set mapred.min.spilt.size.per.node=1;

--一个机架上的spilt的最少值

set mapred.min.spilt.size.per.rack=1

f. map task 并行度机制

一个MR job 的map task 数量由输入分片 inputspilt决定的,输入分片由 fileinputformat.getspilt()决定的计算方法是 long spiltsize =math.max(minsize,math.min(maxsize,blocksize))

合理控制maptask数量

--减少maptask数量可以通过合并小文件来实现

--增加maptask 数量可以通过控制上一个reduce task 默认的maptask 个数

--块数据列式存储有利于数据压缩和快速的列存取

--可以通过设置mapred.min,spilt.size 来设置每个任务处理的文件的大小,这个大小只有在大于dfs_block_size的时候才会生效

spilt_size=max(mapred.min.spilt.size,dfs_block_size)

spilt_num=total_size/spilt_size

compute_map_num=

math.min(spilt_num,math.max(default_mapper_num,mapred.map.tasks))

--复杂文件增加map数量

增加map的方法为：根据computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M公式，调整maxSize最大值。
让maxSize最大值低于blocksize就可以增加map的个数。
set mapreduce.input.fileinputformat.split.maxsize=100;

控制 mapper 数量的方法

set mapred.map.tasks=10;

##默认是2

--如果想增加maptask 个数,可以设置mapred.map.tasks为一个较大的值

--如果想减少maptask 个数,可以设置apred.min,spilt.size为一个较大的值

--如果输入大量小文件,减少mapper个数合并小文件,可以设置set hive.input.format

g. reduce task 并行度

reduce task数量极大的影响执行效率,

基于以下设定

参数1:hive.exec.reducers.bytes.per.reducer(默认256M)

参数2:hive.exec.reducers.max(默认为1009)

参数3:mapreduce.job.reduces(默认值为-1,表示没有设置,那就按照参数1,参数2进行设置)

N=Math.min(参数2,总输入数据大小/参数1)

通过改变上述两个参数的值可以控制reduce task 的数量

set mapred.map.tasks=10;

**set mapreduce.job.reduces=10; **

h. join优化

优先过滤数据,能用分区的用分区,最大限度的减少join 参与的数据量

小表join 大表原则,启用mapjoin

--开启mapjoin

set hive.auto.convert.join=true;

--刷入内存表的大小

set hive.mapjoin.samlltable.filesize=25000000;

--hive会基于表的size自动将普通join 转换成 mapjoin

set hive.auto.convert.join.noconditionaltask=true;

--多大的表可以自动触发到内层 LocalTask中,默认大小为10M

set hive.auto.convert.join.noconditionaltask.size=10000000;

使用相同的连接键,多表连接时

使用原子操作,多使用中间表

大表join大表,空值过滤,空值随机转换

--空key过滤:空key对应的数据无意义

select n.*
from (select * from nullidtable where id is not null ) n  
left join ori o on n.id = o.id;

--空key过滤:空key对应的数据无意义

#为空key赋予随机值，在进入reduce的时候防止空key太多而造成数据倾斜
select n.* from nullidtable n full join ori o on 
case when n.id is null then concat('hive', rand()) else n.id end = o.id;

--join的键对应的记录条数超过这个值就会进行分拆,

set hive.skewjoin.key=100000;

--如果是join过程出现倾斜应该设置为true

set hive.optimize.skewjoin=true;

i.group by优化

---开启map 端聚合: set hive.map.merge.aggr= true; 一般是默认开启 ,减少数据传输及在reduce阶段的处理时间.

set hive.groupby.mapaggr.checkinterval=10000; 设置在map端聚合操作的条数.当大于该值时才会在map端聚合

---开启负载均衡: **set hive.groupby.skewindata=true; **该设置会在数据出现倾斜时,将一个group by 的执行计划拆分成2个阶段MR,第一个阶段将key 随机分发到不同的reduce进行聚合,如何第二阶段MR会基于前一阶段预处理的结果,将相同的key分发到同一个reduce算子,执行聚合操作

---小文件过多时,合并小文件: set hive.merge.mapredfiles=true;

j. order by 优化

order by :全局排序,只能使用一个reduce

sort by:单机排序,

cluster by :对同一个字段分桶并排序,不能和sort by 连用

distribute by +sort by :分桶,保证同一字段值只存在一个结果文件中

全局排序的方式

--使用distribute by =sort by ,多个reducetask ,每个reducetask分布有序

set mapreduce.job.reduces=3;

drop table student_orderby_result;

--范围分桶 0<18<1<20<2

create table student_orderby_result as
select *
from student 
distribute by ( case when age>20 then 0
                     when age>18 then 2
                else 1
                end
              )
sort by (age desc)

k. count(dictinct) 优化

改成group by

SELECT COUNT(DISTINCT id)
FROM table;
改成
SELECT COUNT(t1.id) 
FROM ( SELECT id 
       FROM tabe
       GROUP BY id
      ) t1
;

数据量小的时候无所谓，数据量大的情况下，由于COUNT DISTINCT的全聚合操作，即使设定了reduce task个数，set mapred.reduce.tasks=100；hive也只会启动一个reducer，这就造成一个Reduce处理的数据量太大，导致整个Job很难完成，一般COUNT DISTINCT使用先GROUP BY再COUNT的方式替换：

#设置reduce个数为5
set mapreduce.job.reduces = 5;
#采用distinct去重
select count(distinct id) from bigtable;
#采用group by去重
select count(id) from (select id from bigtable group by id) a;

3.架构调优

a. fetch 启用本地抓取

--查看hive的抓取策略

set hive.fetch.task.conversion

--设置hive的抓取策略

set hive.fetch.task.conversion =more

只有在more模式时,select*, 在分区字段上where 过滤,有limit 这三种场景下才启用直接抓取的方式

b. 本地执行优化

数据量小的情况下

--打开hive自动判断是否启动本地模式的开馆

set hive.exec.mode.local.auto=true;

--map任务数最大值,不启用本地模式的task最大个数

set hive.exec.mode.local.auto,input.files.max=4;

--map输入文件最大大小,不启动本地模式的最大输入文件大小

set hive.exec.mode.local.auto,inputbytes.max=12325635;

c. JVM重用

默认情况下,mapreduce中的一个maptask或者reduce task就会启动一个jvm进程,一个task执行完毕后就会退出jvm程序,如果任务花费时间短,又要多起启动jvm的情况下,就要启动jvm来解决

set mapred.job.reuse.jvm.nun.tasks=6;

d. 并行执行

有的查询语句,hive会将其转换为一个或者多个阶段,包括mapreduce阶段,抽样阶段,合并阶段,limit阶段等,默认情况下, 一次只执行一个阶段,但是如果某些阶段不是互相依赖,是可以并行执行的,多节点并行是比较耗系统资源的

--开启并发执行

set hive.exec.parallel=true;

--同一个sql允许最大并行度,默认为8

set hive.exec.parallel.thread.number=16;

e.推测执行

当有bug出现时,或者数据倾斜时,hadoop要推测出拖后腿任务

--启用mapper 阶段的推测执行机制

set mapreduce.map.speculative=true;

--启用reduce 阶段的推测执行机制

set mapreduce.reduce.speculative=true;

f.hive严格模式

--设置hive的严格模式

set hive.mapred.mode=strict;

set hive.exec.dynamic.partition.mode=nostrict;

设置hive严格模式之后有以下限制

--对于分区表,必须添加where对于分区字段的条件过滤

--order by 语句必须包含limit 输出限制

--限制执行笛卡尔积的查询

--在hive动态分区模式下,如果为严格模式,必须需要一个分区列式静态分区

四、hive组件及其功能

1.用户接口:client

CLI(hive shell) , JDBC/ODBC (Java 访问hive) , WEBUI(浏览器访问hive)

2.元数据(metastore)

元数据包括:表名,表所属的数据库(默认时default),表的拥有者,列/分区字段,表的类型(是否是外部表),表的数据所在目录等

默认存储在自带的derby 数据库中,推荐使用MYSQL存储Metastore

3.Hadoop

使用HDFS进行存储,使用mapreduce 进行计算

4.驱动器:Driver

(1)解析器(sql parser):将sql字符串转换成抽象语法树AST,这一步一般都用第三方工具库完成,比如antlr ;对AST 进行语法分析,比如表是否存在,字段是否存在,sql语义是否有误

(2)编译器(physical plan):将AST 编译生成逻辑执行计划

(3)优化器(query optimizer):对逻辑执行计划进行优化

(4)执行器(execution):将逻辑执行计划转化成可以运行的物理计划,对于hive来说就是MR/Spark

五、hive与yarn ,hdfs,zookeeper,mapreduce之间的关系

1.hive与yarn

hive执行程序在yarn上

2.hive与hdfs

hive处理的数据存储在HDFS

3.hive与mapreduce

hive分析数据底层的默认实现是mapreduce

4.hive与zookeeper

hive可以开启zookeeper客户端,分布式应用程序协调服务

六、hive函数与Oracle函数

函数hive函数Oracle函数数学函数 round(10.235)---10.0 四舍五入取整数round(10.235)---10.0 四舍五入取数floor(3.142)---3 向下取整数trunc(45.962,2)----45.96截取指定小数位ceiling(3.142)---4 向上取整数mod(1600,300)----100 返回除数的余数rand()---啥数都可能,随机,当里面有数据的话,随机数就固定不变了greatest(2,5,6)---6 取最大值greatest(2,5,6)---6 取最大值least(2,5,6)---2 取最小值least(2,5,6)---2 取最小值日期函数from_unixtime(202203300,'YYYY-MM-DD HH:MM:SS')---2022-06-30 18:48:20 把unix时间戳转日期函数
sysdate----返回当前数据库的日期
unix_timestamp()---15946483 获取当前时区的unix时间戳unix_timestamp('2022-01-10 15:12:22')---1651515 把日期字符串转成长整数时间戳unix_timestamp('2022-01-10 ' yyyy-mm-dd)---指定格式日期转unix时间戳from_utc_timestamp(1656456000,'GMT+8')---转换成指定时区下的时间戳函数to_date('2021-12-25 15:56:22')---2021-12-25 返回日期字段中的日期部分year('2021-12-25 15:56:22')---2021 返回日期中的年datediff('2022-01-10','2022-01-08')----2 返回结束日期减去开始日期的天数,结束日期在前data_add('2022-01-10',10)----2022-01-20 日期增加10天+data_sub('2022-01-11',10)----2022-01-01 日期减少10天-add_month('2022-01-10',10)----2022-11-10 月份增加10月add_month('2022-01-10',10)----2022-11-10 月份增加10月current_date---2022-07-12 返回当前日期current_timestamp----2022-07-12 18:12:44返回当前时间last_day(2022-07-12)---2022-07-31 返回当前月份最后一天的日期last_day(2022-07-12)---2022-07-31 返回当前月份最后一天的日期trunc('2022-12-02','MM')----2022-12-01 时间的最开始年份或者月份,截断时域trunc('2022-12-02','YYYY')----2022 按照指定的日期截断months_between('2022-01-10','2022-5-08')---4 返回相差的月份months_between('2022-01-10','2022-5-08')---4 返回相差的月份date_format(to_date('2021-12-25 '),'YYYY/MM/dd')----2021-12-25 将时间按照给定的模式格式化字符串
round('2022-12-02','day')---2022-12-01

七、hive与Oracle差异

1.底层逻辑差异

Oraecle是数据库,而hive是数据仓库,二者最大的区别是存储和计算,Oracle数据库是支持存储计算功能的,hive是基于Hadoop的数据仓库工具,本身不具备计算和存储功能,本质是将hql语句转换成mr程序运行

2.建表区别

hive字段名和表名都可以用as别名

Oracle表名不可以使用as 别名,会报错

3.存储区别

hive存储在HDFS上

Oracle 存储在本地

4.sql代码区别

hive不能更新数据,upset 不能使用

hive 使用join时不支持where进行join关联

5函数区别

6.数据类型

hive不支持函数decode、rownum、to_char、replace、||、nvl、months_between、add_months、rollup、cube、rank() over、dense_rank() over、row_number() over
hiveoracleDDL数据定义1、创建数据库 CREATE DATABASE [IF NOT EXISTS] database_name2、查询数据库显示数据库：show databases;过滤显示查询的数据库：show databases like ‘db_hive’;查看数据库详情：desc database db_hive；或 desc database extended db_hive;3、删除数据库1,DROP TABLE：删除表drop database db_hive2;drop table t_depart;如果数据库不为空，可以采用cascade命令，强制删除：drop database db_hive cascade;4、创建表2, CREATE TABLE：创建表CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
[(col_name data_type [COMMENT col_comment], ...)]
[COMMENT table_comment] -- 为表和列添加注释
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] -- 创建分区表
[CLUSTERED BY (col_name, col_name, ...) -- 创建分桶表
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] -- 对桶中的一个或多个列另外排序
[ROW FORMAT row_format] -- eg：row format delimited fields terminated by '\t'。按照‘\t’分隔
[STORED AS file_format] -- 指定存储文件类型 SEQUENCEFILE（二进制序列文件）、TEXTFILE（文本）、RCFILE（列式存储格式文件）
[LOCATION hdfs_path] -- 指定表在HDFS上的存储位置。
[TBLPROPERTIES (property_name=property_value, ...)]
[AS select_statement] -- 后跟查询语句，根据查询结果创建表。create table t_user(
userid number(30) not null primary key,
username varchar(20) not null,
age number(3),
sex varchar(2),
departid number(30) not null,
foreign key(departid) references t_depart(departid)
);alter table student add primary key(userid)这样用alter也可以创建关联主外键。5,修改列 alter3,alter 修改增加列 ALTER TABLE table_name ADD (col_name data_type [COMMENT col_comment],...)
ADD COLUMNS允许在当前列之后，分区列之前添加新的列，REPLACE COLUMS删除当前的列，加入新的列。只有在使用native 的SerDe时才能这样做（1）在表中添加新列
alter table t_user
add birthday date;（2）删除表中的列
alter table t_user
drop column birthday;（3）给表中添加约束
alter table t_user
add constraint user_name_ununique(name);（4）删除表中的约束
alter table t_user
drop constraint user_name_un;表重命名 alter table table_nameold rename table_namenew（5）修改表名
rename t_user to mytest;
rename mytest to t_user;修改列信息 ALTER TABLE table_name CHANGE [colname]
col_old_name---名字 col_new_name col_type----类型
[COMMENT col_comment]----注释
[FIRST|AFTER col_name]----位置（6）修改列的数据类型
alter table t_user
modify (name varchar2(500));更新列 ALTER TABLE table_name REPLACE COLUMNS (col_name data_type [COMMENT col_comment],...)
ADD COLUMNS允许在当前列之后，分区列之前添加新的列，REPLACE COLUMS删除当前的列，加入新的列。只有在使用native 的SerDe时才能这样做(7)修改列的字段名：
ALTER TABLE 表名
RENAME COLUMN 现在的字段名 TO 修改后的字段名；修改表属性 ALTER TABLE table_name SET TBLPROPERTIES table_properties
table_properties::(properties_name=property_value,properties_name=property_value,...)
----使用这个命令向表中增加元数据修改存储属性 ALTER TABLE table_name SET FILEFORMAT new_fileformat
ALTER TABLE table_name CLUSTERED BY (col_name,col_name,...) [SORTED BY (col_name,...)] INTO number BUCKETS------本命令修改了表的物理存储属性。只是修改了元数据，不能重组或格式化现有的数据。6,清除表数据 truncate table student;4、truncate 用来截断表中的数据，表示先删除，再提交。7,查看表格式化数据：desc formatted 表名truncate table t_user;DML数据操作1、数据导入1,INSERT：添加数据到数据库中向表中装载数据（Load）
load data [local] inpath '数据的path' [overwrite] into table 表名 [partition (partcol1=val1,…)];INSERT INTO(添加数据语句)
插入一行数据(最基础的插入数据)
格式：insert into 表名 (列名)values （对应的列数据）
例子：
INSERT into user (ID,NAME,SALARY)
VALUES(1,'中国移动','100000000');通过查询语句向表中插入数据（Insert）
insert overwrite table student
select id, name from student where month='201709';2,UPDATE：修改数据库中的数据查询语句中创建表并加载数据（As Select）
-- 根据查询结果创建表（查询的结果会添加到新创建的表中）
create table if not exists student3
as select id, name from student;UPDATE(更新数据语句)
修改数据(最基础的插入数据)
格式：update 表名
set id=5 //修改成为id=5的结果
where id=4;
（说明：where是筛选条件，筛选id=4；）
例子：
UPDATE zqx
SET id=5
WHERE id=4;
意思：修改某表中的id=4的数据，将id=4的修改成为id=5创建表时通过Location指定加载数据路径
create external table if not exists student5(
id int, name string
)
row format delimited fields terminated by '\t'
location '/student; -- 创建表，并指定在hdfs上的位置3,DELETE：删除数据库中的数据Import数据到指定Hive表中
import table student2 from
'/user/hive/warehouse/export/student';
-- 注意：先用export导出后，再将数据导入。清空表数据(最基础的插入数据)
格式 delete from 表名（说明：from可以省略，可尝试）
例子：DELETE FROM zqx;2、数据导出4,SELECT：选择（查询）数据Insert导出
-- 将查询的结果格式化导出到本地
insert overwrite local directory '/opt/module/hive/datas/export/student1'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
select * from student;
-- 将查询的结果导出到HDFS上(没有local)
insert overwrite directory '/user/atguigu/student2'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
select * from student;查看表（最基础的查询）
格式：Select 列名 from 表名 --> 直接写出来的是函数关键字
例子：
SELECT * FROM ZQX;(说明：号代表表中的全部列名)Export导出到HDFS上
export table default.student to
'/user/hive/warehouse/export/student';DQL语法1. 基本查询（Select…From）1,SELECT全表和特定列查询SELECT 字段 FROM 表 [WHERE 条件] [GROUP BY 字段[HAVING 条件]] [ORDER BY 字段 ASC/DESC]SQL 语言大小写不敏感。2,WHERE 子句
字符和日期要包含在单引号中。
字符大小写敏感，日期格式敏感SQL 可以写在一行或者多行2.1 运算符关键字不能被缩写也不能分行算术运算符：+ - * /各子句一般要分行写。比较运算符：> < >= <= = <> !=使用缩进提高语句的可读性。逻辑运算符：and or not1.1 算术运算符2.2 模糊查询算术运算符：+ - * /like not like 用于字符串的模糊查找。1.2 常用函数_:任意一个字符#求总行数（count）
select count(*) cnt from emp;%：任意多个字符#求工资的最大值（max）
select max(sal) max_sal from emp;2.3、范围查询#求工资的最小值（min）
select min(sal) min_sal from emp;IN：判断值是否在集合中#求工资的总和（sum）
select sum(sal) sum_sal from emp;EXIST：判断值是否在集合中#求工资的平均值（avg）
select avg(sal) avg_sal from emp;SOME ：判断值是否为集合中某一个1.3 比较运算符（Between/In/ Is Null）ANY ：判断值是否大于集合中的某一个或者小于集合中的某一个> < >= <= = <> !=ALL：判断值是否大于集合中的所有元素或者小于集合中的所有元素1.4 Like 和和 RLikeBETWEEN 值1 AND 值2 ：判断值是否在值1和值2范围内使用 like 运算选择类似的值3、GROUP BY选择条件可以包含字符或数字SELECT DEPTNO, MAX(SAL), MIN(SAL), AVG(SAL), SUM(SAL) FROM EMP GROUP BY DEPTNO;% 代表零个或多个字符(任意个字符)。4、HAVING_ 代表一个字符。SELECT ENAME, SAL WHERE DEPTNO IN (
SELECT DEPTNO FROM EMP GROUP BY DEPTNO HAVING MIN(SAL) < 2000
);rlike子句是 Hive 中这个功能的一个扩展，其可以通过 Java 的正则表达式这个更强大的语言来指定匹配条件。5、ORDER BY1.5 逻辑运算符（And/Or/Not )DESC：倒序2. 分组查询SELECT ENAME, TO_CHAR(HIREDATE, 'yyyy'), TO_CHAR(HIREDATE, 'mm')
FROM EMP
ORDER BY TO_NUMBER(TO_CHAR(HIREDATE, 'yyyy')), TO_NUMBER(TO_CHAR(HIREDATE, 'mm'));2.1 Group By 语句 group by 语句通常会和聚合函数一起使用#计算 emp 表每个部门的平均工资
select t.deptno,avg(t.sal) avg_sal
from emp t
group by t.deptno;2.2 Having 语句 having 只用于 group by 分组统计语句。#求每个部门的平均薪水大于 2000 的部门
select deptno,avg(sal) avg_sal
from emp
group by deptno
having avg_sal > 2000;3. Join 语句Hive 支持通常的 SQL JOIN 语句，但是只支持等值连接，不支持非等值连接。#根据员工表和部门表中的部门编号相等，查询员工编号、员工名称和部门名称；
select e.empno,e.ename,d.deptno,d.dname
from emp e
join dept d
on e.deptno = d.deptno;3.1 LEFT SEMI JOINLEFT SEMI JOIN是IN/EXISTS 子查询的一种更高效的实现LEFT SEMI JOIN 的限制是， JOIN 子句中右边的表只能在 ON 子句中设置过滤条件，在 WHERE 子句、SELECT 子句或其他地方过滤都不行SELECT a.key, a.val FROM a LEFT SEMI JOIN b on (a.key = b.key)3.2 LEFT，RIGHT和FULL OUTER关键字用于处理join中空记录的情况4. 排序4.1 全局排序（Order By ）Order By：全局排序，一个 ReducerASC（ascend）: 升序（默认）DESC（descend）: 降序order by 子句在 select 语句的结尾4.2 按多个列排序#按照部门和工资升序排序
select ename,deptno,sal
from emp
order by deptno,sal;4.3 每个 MapReduce 内部排序（Sort By )Sort By：每个 Reducer 内部进行排序，对全局结果集来说不是排序。#将查询结果导入到文件中（按照部门编号降序排序）
insert overwrite local directory '/opt/module/data/sortby-result'
select * from emp
sort by deptno desc;4.4 分区排序（Distribute By ）Distribute By：类似 MR 中 partition，进行分区，结合 sort by 使用。
注意，Hive 要求 DISTRIBUTE BY 语句要写在 SORT BY 语句之前。对于 distribute by 进行测试，一定要分配多 reduce 进行处理，否则无法看到 distribute by的效果。#先按照部门编号分区，再按照员工编号降序排序。
set mapreduce.job.reduces=3;

insert overwrite local directory '/opt/module/data/distribute-result'
select * from emp
distribute by deptno
sort by empno desc;4.5 Cluster By当 distribute by 和 sorts by 字段相同时，可以使用 cluster by 方式。
cluster by 除了具有 distribute by 的功能外还兼具 sort by 的功能。但是排序只能是升序排序，不能指定排序规则为 ASC 或者 DESC。5. 分桶及抽样查询6.函数TCL授权： GRANT回收权限：REVOKE提交： COMMIT回滚： ROLLBACK保存点：SAVE POINT事务控制语句:一组逻辑操作单元使数据从一种状态变换成另一种状态

标签：大数据

本文转载自: https://blog.csdn.net/m0_71722994/article/details/125742182
版权归原作者 yunh666 所有，如有侵权，请联系我们删除。

一、hive底层逻辑

二、数据倾斜场景以及解决方法

三、hive调优

1.建表优化

2.sql优化

3.架构调优

四、hive组件及其功能

五、hive与yarn ,hdfs,zookeeper,mapreduce之间的关系

六、hive函数与Oracle函数

七、hive与Oracle差异

发表评论

“hive与Oracle”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航

hive与Oracle

**一、hive底层逻辑 **

二、数据倾斜场景以及解决方法

**三、hive调优 **

1.建表优化

2.sql优化

3.架构调优

四、hive组件及其功能

五、hive与yarn ,hdfs,zookeeper,mapreduce之间的关系

六、hive函数与Oracle函数

七、hive与Oracle差异

发表评论

“hive与Oracle”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航

一、hive底层逻辑

三、hive调优