Hive Sql优化
一次from查询多次insert into操作
例:统计字段空值率
优化点:一次map多个reduce,有效节省了map操作
流程如下:
1.创建表;
2.插入数据;
3.参照下面语句;
--创建student表
CREATE EXTERNAL TABLE IF NOT EXISTS STUDENT(
s_no string comment '学号',
s_name string comment '姓名',
s_birth string comment '生日',
s_age bigint comment '年龄',
s_sex string comment '性别',
)
--创建统计空置率表
CREATE EXTERNAL TABLE IF NOT EXISTS STUDENT_COUNT(
ID STRING COMMENT '字段名称',
COUNT STRING COMMENT '数据累加'
NULL_RATE DOUBLE '空值率'
)
--清空表数据
truncate table student_count;
--插入数据
--年龄大于16学生的姓名和生日的空置率;
from (select * from student where s_age > 16) a
insert into student_count select 's_name ' id ,count(1) count,count(s_name )/count(1) as null_rate
insert into student_count select 's_birth ' id ,count(1) count,count(s_birth )/count(1) as null_rate;
使用grouping sets代替union的SQL优化
--grouping sets等操作时,用union关键词来构建多维统计的方式
--改写前的代码段
select * from(
select s_age,s_sex,count(1) num
from student_tb_orc
group by s_age,s_sex
union all
select s_age,null s_sex,count(1) num
from student_tb_orc
group by s_age
) a
--改写后的代码段
select s_age,s_sex,count(1) num
from student_tb_orc
group by s_age,s_sex
grouping sets((s_age),(s_age,s_sex))
本文转载自: https://blog.csdn.net/Avarice912/article/details/130327139
版权归原作者 Avarice912 所有, 如有侵权,请联系我们删除。
版权归原作者 Avarice912 所有, 如有侵权,请联系我们删除。