0


11、Hive+Spark数仓环境准备

1、 Hive安装部署

1)把hive-3.1.3.tar.gz上传到linux的/opt/software目录下

2)解压hive-3.1.3.tar.gz到/opt/module/目录下面

[shuidi@hadoop102 module]$ tar -zxvf /opt/software/hive-3.1.3.tar.gz -C /opt/module/

3)修改hive-3.1.3-bin.tar.gz的名称为hive

[shuidi@hadoop102 module]$ mv /opt/module/apache-hive-3.1.3-bin/ /opt/module/hive

4)修改/etc/profile.d/my_env.sh,添加环境变量

[shuidi@hadoop102 module]$ sudo vim /etc/profile.d/my_env.sh

添加内容

#HIVE_HOME
export HIVE_HOME=/opt/module/hive
export PATH=$PATH:$HIVE_HOME/bin

重启Xshell对话框或者source一下 /etc/profile.d/my_env.sh文件,使环境变量生效。

[shuidi@hadoop102 module]$ source /etc/profile.d/my_env.sh

5)解决日志Jar包冲突,进入/opt/module/hive/lib目录

[shuidi@hadoop102 module]$ cd /opt/module/hive/lib
[shuidi@hadoop102 lib]$ mv log4j-slf4j-impl-2.17.1.jar log4j-slf4j-impl-2.17.1.jar.bak
  1. 修改Hive的log存放日志到/opt/module/hive/logs
修改$HIVE_HOME/conf/hive-log4j2.properties.template文件名称为 hive-log4j2.properties
[shuidi@hadoop102 ~]$ mv /opt/module/hive/conf/hive-log4j2.properties.template /opt/module/hive/conf/hive-log4j2.properties
修改配置如下
property.hive.log.dir=/opt/module/hive/logs

2 、Hive元数据配置到MySQL

2.1、 拷贝驱动

将MySQL的JDBC驱动 mysql-connector-j-8.0.31.jar 上传到Hive的lib目录下 /opt/module/hive/lib/。

2.2、 配置Metastore到MySQL

在$HIVE_HOME/conf目录下新建hive-site.xml文件。

[shuidi@hadoop102 conf]$ vim hive-site.xml

添加如下内容。

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <!--配置Hive保存元数据信息所需的 MySQL URL地址-->
    <property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:mysql://hadoop102:3306/metastore?useSSL=false&amp;useUnicode=true&amp;characterEncoding=UTF-8&amp;allowPublicKeyRetrieval=true</value>
    </property>

    <!--配置Hive连接MySQL的驱动全类名-->
    <property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>com.mysql.cj.jdbc.Driver</value>
    </property>

    <!--配置Hive连接MySQL的用户名 -->
    <property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>root</value>
    </property>

    <!--配置Hive连接MySQL的密码 -->
    <property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>Zan@#2024</value>
    </property>

    <property>
        <name>hive.metastore.warehouse.dir</name>
        <value>/user/hive/warehouse</value>
    </property>

    <property>
        <name>hive.metastore.schema.verification</name>
        <value>false</value>
    </property>

    <property>
    <name>hive.server2.thrift.port</name>
    <value>10000</value>
    </property>

    <property>
        <name>hive.server2.thrift.bind.host</name>
        <value>hadoop102</value>
    </property>

    <property>
        <name>hive.metastore.event.db.notification.api.auth</name>
        <value>false</value>
    </property>
    
    <property>
        <name>hive.cli.print.header</name>
        <value>true</value>
    </property>

    <property>
        <name>hive.cli.print.current.db</name>
        <value>true</value>
    </property>
</configuration>

3、 启动Hive

3.1、 初始化元数据库

1)登陆MySQL

[shuidi@hadoop102 conf]$ mysql -uroot -p

2)新建Hive元数据库

mysql> create database metastore;

3)初始化Hive元数据库

[atguigu@hadoop102 conf]$ schematool -initSchema -dbType mysql -verbose

4)修改元数据库字符集

Hive元数据库的字符集默认为Latin1,由于其不支持中文字符,所以建表语句中如果包含中文注释,会出现乱码现象。如需解决乱码问题,须做以下修改。

修改Hive元数据库中存储注释的字段的字符集为utf-8。

(1)字段注释

mysql> use metastore;
mysql> alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;

(2)表注释

mysql> alter table TABLE_PARAMS modify column PARAM_VALUE mediumtext character set utf8;

5)退出mysql

mysql> quit;

3.2、 启动Hive客户端

1)启动Hive客户端

[shuidi@hadoop102 hive]$ hive

2)查看一下数据库

hive (default)> show databases;
OK
database_name
default
Time taken: 0.905 seconds, Fetched: 1 row(s)
hive (default)> 

4、Hive环境搭建

1)Hive引擎简介

Hive引擎包括:默认MR、Tez、Spark。

Hive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。

Spark on Hive : Hive只作为存储元数据,Spark负责SQL解析优化,语法是Spark SQL语法,Spark负责采用RDD执行。

2)Hive on Spark配置

(1)兼容性说明

注意:官网下载的Hive3.1.3和Spark3.3.1默认是不兼容的。因为Hive3.1.3支持的Spark版本是2.3.0,所以需要我们重新编译Hive3.1.3版本。

编译步骤:官网下载Hive3.1.3源码,修改pom文件中引用的Spark版本为3.3.1,如果编译通过,直接打包获取jar包。如果报错,就根据提示,修改相关方法,直到不报错,打包获取jar包。

(2)在Hive所在节点部署Spark纯净版

①Spark官网下载jar包地址:

Downloads | Apache Spark

②上传并解压解压spark-3.3.1-bin-without-hadoop.tgz

[shuidi@hadoop102 module]$ tar -zxvf /opt/software/spark-3.3.1-bin-without-hadoop.tgz -C /opt/module/
[shuidi@hadoop102 module]$ mv /opt/module/spark-3.3.1-bin-without-hadoop /opt/module/spark

③修改spark-env.sh配置文件

修改文件名。

[shuidi@hadoop102 module]$ mv /opt/module/spark/conf/spark-env.sh.template /opt/module/spark/conf/spark-env.sh

编辑文件

[shuidi@hadoop102 module]$ vim /opt/module/spark/conf/spark-env.sh

增加如下内容。

export SPARK_DIST_CLASSPATH=$(hadoop classpath)

(3)配置SPARK_HOME环境变量

[shuidi@hadoop102 module]$ sudo vim /etc/profile.d/my_env.sh

添加如下内容。

# SPARK_HOME
export SPARK_HOME=/opt/module/spark
export PATH=$PATH:$SPARK_HOME/bin

source 使其生效。

[shuidi@hadoop102 module]$ source /etc/profile.d/my_env.sh

(4)在hive中创建spark配置文件

[shuidi@hadoop102 module]$ vim /opt/module/hive/conf/spark-defaults.conf

添加如下内容(在执行任务时,会根据如下参数执行)。

spark.master                             yarn
spark.eventLog.enabled                   true
spark.eventLog.dir                       hdfs://hadoop102:8020/spark-history
spark.executor.memory                    1g
spark.driver.memory                     1g

在HDFS创建如下路径,用于存储历史日志。

[shuidi@hadoop102 module]$ hadoop fs -mkdir /spark-history

(5)向HDFS上传Spark纯净版jar包

说明1:采用Spark纯净版jar包,不包含hadoop和hive相关依赖,能避免依赖冲突。

说明2:Hive任务最终由Spark来执行,Spark任务资源分配由Yarn来调度,该任务有可能被分配到集群的任何一个节点。所以需要将Spark的依赖上传到HDFS集群路径,这样集群中任何一个节点都能获取到。

[shuidi@hadoop102 module]$ hadoop fs -mkdir /spark-jars

[shuidi@hadoop102 module]$ hadoop fs -put /opt/module/spark/jars/* /spark-jars

(6)修改hive-site.xml文件

[shuidi@hadoop102 module]$ vim /opt/module/hive/conf/hive-site.xml

添加如下内容。

<!--Spark依赖位置(注意:端口号8020必须和namenode的端口号一致)-->
<property>
    <name>spark.yarn.jars</name>
    <value>hdfs://hadoop102:8020/spark-jars/*</value>
</property>
  
<!--Hive执行引擎-->
<property>
    <name>hive.execution.engine</name>
    <value>spark</value>
</property>

3)Hive on Spark测试

(1)启动hive客户端

[shuidi@hadoop102 module]$  hive

(2)创建一张测试表

hive (default)> create table student(id int, name string);
OK
Time taken: 1.368 seconds

(3)通过insert测试效果

hive (default)> insert into table student values(1,'abc');

若结果如下,则说明配置成功。

5、Yarn环境配置

1)增加ApplicationMaster资源比例

容量调度器对每个资源队列中同时运行的Application Master占用的资源进行了限制,该限制通过yarn.scheduler.capacity.maximum-am-resource-percent参数实现,其默认值是0.1,表示每个资源队列上Application Master最多可使用的资源为该队列总资源的10%,目的是防止大部分资源都被Application Master占用,而导致Map/Reduce Task无法执行。

生产环境该参数可使用默认值。但学习环境,集群资源总数很少,如果只分配10%的资源给Application Master,则可能出现,同一时刻只能运行一个Job的情况,因为一个Application Master使用的资源就可能已经达到10%的上限了。故此处可将该值适当调大。

(1)在hadoop102的/opt/module/hadoop/etc/hadoop/capacity-scheduler.xml文件中修改如下参数值

[shuidi@hadoop102 module]$ vim /opt/module/hadoop/etc/hadoop/capacity-scheduler.xml

<property>
    <name>yarn.scheduler.capacity.maximum-am-resource-percent</name>
    <value>0.8</value>
</property

(2)分发capacity-scheduler.xml配置文件

[shuidi@hadoop102 module]$ xsync /opt/module/hadoop/etc/hadoop/capacity-scheduler.xml

(3)关闭正在运行的任务,hadoop103重新启动yarn集群

[shuidi@hadoop103 ~]$ stop-yarn.sh
[shuidi@hadoop103 ~]$ start-yarn.sh

6、 数据仓库开发环境

数仓开发工具可选用DBeaver或者DataGrip。两者都需要用到JDBC协议连接到Hive,故需要启动HiveServer2。

1)启动HiveServer2

[shuidi@hadoop102 module]$ hiveserver2

后台启动命令

nohup hive --service hiveserver2 2>&1 &

2)配置DataGrip连接

(1)创建连接

(2)配置连接属性

所有属性配置,和Hive的beeline客户端配置一致即可。初次使用,配置过程会提示缺少JDBC驱动,按照提示下载即可。

3)测试使用

创建数据库gmall,并观察是否创建成功。

(1)创建数据库

(2)查看数据库

(3)修改连接,指明连接数据库

(4)选择当前数据库为gmall

7、Hive 常见问题及解决方式

1)DataGrip 中注释乱码问题

注释属于元数据的一部分,同样存储在mysql的metastore库中,如果metastore库的字符集不支持中文,就会导致中文显示乱码。

不建议修改Hive元数据库的编码,此处我们在metastore中找存储注释的表,找到表中存储注释的字段,只改对应表对应字段的编码。

如下两步修改,缺一不可。

(1)修改mysql元数据库

我们用到的注释有两种:字段注释和整张表的注释。

COLUMNS_V2 表中的 COMMENT 字段存储了 Hive 表所有字段的注释,TABLE_PARAMS 表中的 PARAM_VALUE 字段存储了所有表的注释。我们可以通过命令修改字段编码,也可以用 DataGrip 或 Navicat 等工具修改,此处仅对 Navicat 进行展示。

①命令修改

采集部分已介绍。

alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;
alter table TABLE_PARAMS modify column PARAM_VALUE mediumtext character set utf8;

②使用工具

以COLUMNS_V2表中COMMENT字段的修改为例。

(a)右键点击表名,选择设计表

(b)在右侧页面中选中表的字段

(c)在页面下方下拉列表中将字符集改为 utf8

修改字符集之后,已存在的中文注释能否正确显示?不能。为何?

数据库中的字符都是通过编码存储的,写入时编码,读取时解码。修改字段编码并不会改变此前数据的编码方式,依然为默认的 latin1,此时读取之前的中文注释会用 utf8 解码,编解码方式不一致,依然乱码。

(2)url连接的编码指定为UTF-8

修改 hive-site.xml,在javax.jdo.option.ConnectionURL的value末尾添加以下内容。

&useUnicode=true&characterEncoding=UTF-8

这一步在采集部分已完成。

xml文件中&符是有特殊含义的,我们必须使用转义的方式&对&进行替换,如下。

<property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:mysql://hadoop102:3306/metastore?useSSL=false&useUnicode=true&characterEncoding=UTF-8&allowPublicKeyRetrieval=true
</value>
</property>

只要修改了hive-site.xml,就必须重启hiveserver2。

2)DataGrip 刷新连接时 hiveserver2 后台报错

关键信息如下。

FAILED: ParseException line 1:5 cannot recognize input near 'show' 'indexes' 'on' in ddl statement
3986 [44f450f2-fc83-42fb-8c99-f4bc4617d6c2 HiveServer2-Handler-Pool: Thread-87] ERROR org.apache.hadoop.hive.ql.Driver  - FAILED: ParseException line 1:5 cannot recognize input near 'show' 'indexes' 'on' in ddl statement
org.apache.hadoop.hive.ql.parse.ParseException: line 1:5 cannot recognize input near 'show' 'indexes' 'on' in ddl statement

原因:早期版本的 Hive 有索引功能,当前版本已移除, DataGrip 刷新连接时会扫描索引,而 Hive 没有,就会报错。

上述问题是DataGrip导致的,并非Hive环境的问题,不影响使用。

3)OOM报错

Hive默认堆内存只有256M,如果hiveserver2后台频繁出现OutOfMemoryError,可以调大堆内存。

在Hive家目录的conf目录下复制一份模板文件hive-env.sh.template。

[shuidi@hadoop102 ~]$ cd $HIVE_HOME/conf
[shuidi@hadoop102 conf]$ cp hive-env.sh.template hive-env.sh

修改 hive-env.sh,将 Hive 堆内存改为 4096M,如下。

export HADOOP_HEAPSIZE=4096

可根据实际使用情况适当调整堆内存。

4)DataGrip ODS层部分表字段显示异常

建表字段中有如下语句的表字段无法显示。

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.JsonSerDe'

上述语句指定了Hive表的序列化器和反序列化器SERDE(serialization 和 deserialization的合并缩写),用于解析 JSON 格式的文件。上述 SERDE 是由第三方提供的,在hive-site.xml中添加如下配置即可解决。

<property>
    <name>metastore.storage.schema.reader.impl</name>
    <value>org.apache.hadoop.hive.metastore.SerDeStorageSchemaReader</value>
</property>

8、模拟数据准备

通常企业在开始搭建数仓时,业务系统中会存在历史数据,一般是业务数据库存在历史数据,而用户行为日志无历史数据。假定数仓上线的日期为2022-06-08,为模拟真实场景,需准备以下数据。

注:在执行以下操作之前,先将HDFS上/origin_data路径下之前的数据删除。

1)启动采集通道

命令如下。

[shuidi@hadoop102 ~]$ cluster.sh start

停止Maxwell。

[shuidi@hadoop102 bin]$ mxw.sh stop
停止Maxwell

2)数据准备

(1)生成模拟数据

① 修改hadoop102节点的/opt/module/applog/application.yml文件,将mock.date,mock.clear,mock.clear.user,mock.new.user,mock.log.db.enable五个参数调整为如下的值。

#业务日期
mock.date: "2022-06-04"
#是否重置业务数据
mock.clear.busi: 1
#是否重置用户数据
mock.clear.user: 1
# 批量生成新用户数量
mock.new.user: 100
# 日志是否写入数据库一份  写入z_log表中
mock.log.db.enable: 0

② 执行数据生成脚本,生成第一天2022-06-04的历史数据。

[shuidi@hadoop102 ~]$ lg.sh

③ 修改/opt/module/applog/application.properties文件,将mock.date、mock.clear,mock.clear.user,mock.new.user四个参数调整为如图所示的值。

#业务日期
mock.date: "2022-06-05"
#是否重置业务数据
mock.clear.busi: 0
#是否重置用户数据
mock.clear.user: 0
# 批量生成新用户
mock.new.user: 0

④ 执行数据生成脚本,生成第二天2022-06-05的历史数据。

[shuidi@hadoop102 ~]$ lg.sh

⑤ 之后只修改/opt/module/applog/application.properties文件中的mock.date参数,依次改为2022-06-06,2022-06-07,并分别生成对应日期的数据。

⑥ 删除/origin_data/gmall/log目录,将⑤中提到的参数修改为2022-06-08,并生成当日模拟数据。

(2)全量表同步

① 执行全量表同步脚本

[shuidi@hadoop102 ~]$ mysql_to_hdfs_full.sh all 2022-06-08

② 观察HDFS上是否出现全量表数据

(3)增量表首日全量同步

① 清除Maxwell断点记录

由于Maxwell支持断点续传,而上述重新生成业务数据的过程,会产生大量的binlog操作日志,这些日志我们并不需要。故此处需清除Maxwell的断点记录,令其从binlog最新的位置开始采集。

清空Maxwell数据库,相当于初始化Maxwell。

mysql> 
drop table maxwell.bootstrap;
drop table maxwell.columns;
drop table maxwell.databases;
drop table maxwell.heartbeats;
drop table maxwell.positions;
drop table maxwell.schemas;
drop table maxwell.tables;

② 修改Maxwell配置文件中的mock_date参数

[shuidi@hadoop102 maxwell]$ vim /opt/module/maxwell/config.properties

mock_date=2022-06-08

③ 启动Maxwell

[shuidi@hadoop102 ~]$ mxw.sh start

④ 执行增量表首日全量同步脚本

[shuidi@hadoop102 ~]$  mysql_to_kafka_inc_init.sh all

⑤ 观察HDFS上是否出现增量表数据

标签: hive spark hadoop

本文转载自: https://blog.csdn.net/dyangel2013/article/details/142071595
版权归原作者 施小赞 所有, 如有侵权,请联系我们删除。

“11、Hive+Spark数仓环境准备”的评论:

还没有评论