HBase表结构

HBase是非关系型数据库，是高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。

一般我们从数仓中离线统计分析海量数据，将得到的结果插入HBase中用于实时查询。

hbase在表中组织数据。表名是字符串和字符的组合，可以在文件系统路径中使用

这里以一个公司员工表为案例来讲解，此表中包含员工基本信息（员工姓名、年龄），员工详细信息（工资、角色），以及时间戳。整体表结构如下：

每一行有一个RowKey用于唯一地标识和定位行，各行数据按RowKey的字典序排列。其中ImployeeBasicInfoCLF和DetailInfoCLF是两个列族，列族下又有多个具体列。（员工基本信息列族：姓名、年龄。详细信息列族：薪水、角色）

在表中数据依赖于行来存储，行通过行键来区分。行键没有数据类型，通常是一个字节数组

列族是一些列的集合，一个列族所有成员都有同样的前缀

行中的数据通过列族来组织。列族也暗示了数据的物理排列。所以列族必须预先定义，并且不容易被修改。每行都拥有相同的列族，可能有些行的数据为空。列族是字符串和字符的组合，可以在文件系统路径中使用

列族必须在表建立的时候声明，列则不需要特别声明，用户随时可以创建新列。

Hbase通过列族划分数据的存储，列族下面可以包含任意多的列，实现灵活的数据存取。就像是家族的概念，我们知道一个家族是由于很多个的家庭组成的。列族也类似，列族是由一个一个的列组成（任意多）。
Hbase表的创建的时候就必须指定列族。就像关系型数据库创建的时候必须指定具体的列是一样的。
Hbase的列族不是越多越好，列族越多，在取一行数据需要参与IO、搜寻的文件就越多；官方推荐的是列族最好小于或者等于3。我们使用的场景一般是1个列族。
一个列族会储存一个物理文件；
通常将具有相同IO（读写）属性的列放在同一个列族下，IO属性即经常在一起查询的字段，由具体的实际业务中决定；

标签： hbase 数据库大数据

本文转载自: https://blog.csdn.net/roi666/article/details/135919960
版权归原作者 内向仓鼠 所有，如有侵权，请联系我们删除。