文章目录
什么是中位数?
中位数(Median)又称中值,统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。
Hive 求中位数
在 Hive 中有两个函数可以求中位数,分别是:
- percentile(col,n):
col
表示需要求中位数的字段(必须为整型 int);
n
表示范围区间,可指定
0-1
,当指定值为
0.5
时,表示求中位数。
- percentile_approx(col,n): 与
percentile
唯一的区别就是它指定的字段只要是数值类型就可以。
示例
创建表:
createtableifnotexists test(
id int,
name string);
插入数据(奇数条数据):
insertinto test values(1,"张三"),(2,"李四"),(3,"王五"),(4,"詹姆斯"),(6,"浓眉"),(8,"威少"),(5,"库里"),(9,"维金斯"),(7,"汤普森");
插入后数据如下所示(乱序状态):
**根据
id
列求中位数(未排序):**
select percentile(id,0.5)from test;
输出结果为:
5.0
**根据
id
列求中位数(排序):**
select percentile(id,0.5)from(select*from test orderby id)t1;
输出结果为:
5.0
增加一条数据,将其变为偶数条数据。
insertinto test values(10,"乔丹");
插入后数据如下所示(乱序状态):
**再次根据
id
列求中位数(未排序):**
select percentile(id,0.5)from test;
输出结果为:
5.5
**再次根据
id
列求中位数(排序):**
select percentile(id,0.5)from(select*from test orderby id)t1;
输出结果为:
5.5
可以发现我们手动排序并不会对结果造成影响。
版权归原作者 月亮给我抄代码 所有, 如有侵权,请联系我们删除。