0


【拿走不谢】大数据高效查询神器--bitmap

背景

在hive中使用Roaring64Bitmap实现精确去重功能 主要目的:

  1. 提升 hive 中精确去重性能,代替hive 中的 count(distinct uuid);
  2. 节省 hive 存储 ,使用 bitmap 对数据压缩 ,减少了存储成本;
  3. 提供在 hive 中 bitmap 的灵活运算 ,比如:交集、并集、差集运算 ,计算后的 bitmap 也可以直接写入 hive;在这里插入图片描述

使用

1.github地址

https://github.com/lihuigang/hive-bitmap-udf

2.下载地址:

https://github.com/lihuigang/hive-bitmap-udf/releases/download/v1.0.1/hive-bitmap-udf.jar

3.在hive中创建自定义 bitmap UDF

  1. add jar hdfs://node:9000/hive-bitmap-udf.jar;
  2. CREATE TEMPORARY FUNCTION to_bitmap AS 'com.hive.bitmap.udf.ToBitmapUDAF';
  3. CREATE TEMPORARY FUNCTION bitmap_union AS 'com.hive.bitmap.udf.BitmapUnionUDAF';
  4. CREATE TEMPORARY FUNCTION bitmap_count AS 'com.hive.bitmap.udf.BitmapCountUDF';
  5. CREATE TEMPORARY FUNCTION bitmap_and AS 'com.hive.bitmap.udf.BitmapAndUDF';
  6. CREATE TEMPORARY FUNCTION bitmap_or AS 'com.hive.bitmap.udf.BitmapOrUDF';
  7. CREATE TEMPORARY FUNCTION bitmap_xor AS 'com.hive.bitmap.udf.BitmapXorUDF';

4.UDF说明

UDF描述案例结果类型to_bitmap将num(int或bigint) 转化为 bitmapto_bitmap(num)bitmapbitmap_union多个bitmap合并为一个bitmap(并集)bitmap_union(bitmap)bitmapbitmap_count计算bitmap中存储的num个数bitmap_count(bitmap)longbitmap_and计算两个bitmap交集bitmap_and(bitmap1,bitmap2)bitmapbitmap_or计算两个bitmap并集bitmap_or(bitmap1,bitmap2)bitmapbitmap_xor计算两个bitmap差集bitmap_xor(bitmap1,bitmap2)bitmap

5. 在 hive 中创建 bitmap 类型表,导入数据并查询

  1. CREATE TABLE IF NOT EXISTS `hive_bitmap_table`
  2. (
  3. k int comment 'id',
  4. bitmap binary comment 'bitmap'
  5. ) comment 'hive bitmap 类型表'
  6. STORED AS ORC;
  7. -- 数据写入
  8. insert into table hive_bitmap_table select 1 as id,to_bitmap(1) as bitmap;
  9. insert into table hive_bitmap_table select 2 as id,to_bitmap(2) as bitmap;
  10. -- 查询
  11. select bitmap_union(bitmap) from hive_bitmap_table;
  12. select bitmap_count(bitmap_union(bitmap)) from hive_bitmap_table;

6. 在 hive 中使用 bitmap 实现精确去重

  1. CREATE TABLE IF NOT EXISTS `hive_table`
  2. (
  3. k int comment 'id',
  4. uuid bigint comment '用户id'
  5. ) comment 'hive 普通类型表'
  6. STORED AS ORC;
  7. -- 普通查询(计算去重人数)
  8. select count(distinct uuid) from hive_table;
  9. -- bitmap查询(计算去重人数)
  10. select bitmap_count(to_bitmap(uuid)) from hive_table;
标签: hive hadoop bitmap

本文转载自: https://blog.csdn.net/weixin_39032019/article/details/125162624
版权归原作者 不吃西红柿丶 所有, 如有侵权,请联系我们删除。

“【拿走不谢】大数据高效查询神器--bitmap”的评论:

还没有评论