0


Hive表使用ORC格式和SNAPPY压缩建表语句示例

Hive表使用ORC格式和SNAPPY压缩建表语句示例

下面是一个sql示例:

-- 创建数据库
CREATE DATABASE IF NOT EXISTS mydatabase;-- 使用数据库
USE mydatabase;-- 创建分区表,使用ORC文件格式,采用Snappy压缩算法
CREATE TABLE IF NOT EXISTS my_table(
id INT,
name STRING
)
PARTITIONED BY(dt STRING)
STORED AS ORC
LOCATION '/user/hive/warehouse/my_table'TBLPROPERTIES("orc.compress"="snappy");-- 加载数据到分区表
INSERT INTO my_table PARTITION(dt=20240101)VALUES(101,'Alice'),(102,'Bob');-- 查询分区表数据
SELECT * FROM my_table;

在这个示例中:

  • 首先创建了一个名为 mydatabase 的数据库并切换到该数据库。
  • 创建了一个名为 my_table 的分区表 ,包含了 id 和 name 两列。
  • 使用 PARTITIONED BY (dt STRING) 对表进行了日期分区,将数据按照日期进行分区存储。
  • 使用 STORED AS ORC 指定了使用ORC文件格式存储数据,ORC是Hive中常用的列式存储格式。
  • 使用 LOCATION 指定了表的存储路径。
  • 使用 TBLPROPERTIES (“orc.compress”=“snappy”) 设置了压缩算法为SNAPPY,对数据进行压缩存储。

Hive支持的常用文件格式

  • ORC(Optimized Row Columnar):列式存储格式,提供高压缩比和高性能的查询。
  • Parquet:另一种列式存储格式,支持高效的压缩和查询。
  • Text:文本文件格式,易于阅读和处理。
  • SequenceFile:Hadoop中的二进制文件格式,适合大数据存储和处理。

Hive支持的常用压缩算法

  • SNAPPY:快速压缩算法,提供较高的压缩比和速度。
  • GZIP:通用的压缩算法,提供较高的压缩比,但速度相对较慢。
  • LZO:高效的压缩算法,支持快速压缩和解压缩,适合大数据处理。
  • BZIP2:提供更高的压缩比,但速度较慢,适合对存储空间要求较高的场景。

在选择压缩算法时,一般可以考虑以下几个因素

  1. 压缩比:不同的压缩算法具有不同的压缩比,一般来说,压缩比越高,存储空间占用越小,但可能会影响查询性能。
  2. 压缩速度:有些压缩算法压缩速度较快,适合对数据进行频繁压缩,而有些压缩算法压缩速度较慢,但压缩比较高。
  3. 解压速度:压缩算法解压速度也是一个重要考虑因素,因为查询时需要解压数据。
标签: hive hadoop hdfs

本文转载自: https://blog.csdn.net/qq_36382892/article/details/136513633
版权归原作者 公子乂 所有, 如有侵权,请联系我们删除。

“Hive表使用ORC格式和SNAPPY压缩建表语句示例”的评论:

还没有评论