Linux虚拟机安装Hive(mysql安装)

Hive安装

第01节 Hive安装部署

1. 安装前准备

由于Hive是一款基于Hadoop的数据仓库软件，通常部署运行在Linux系统之上。因此必须要先保证服务器的基础环境正常，Hadoop环境正常运行，Hive不是分布式安装运行的软件，其分布式的特性主要借由Hadoop完成。包括分布式存储、分布式计算。

创建服务端目录用于存放Hive安装文件# 用于存放安装包mkdir /opt/tools# 用于存放解压后的文件mkdir /opt/server
切换到/opt/tools目录，上传hive安装包cd /opt/tools
共涉及到两个安装包，分别是apache-hive-3.1.3-bin.tar.gz与mysql-5.7.34-1.el7.x86_64.rpm-bundle.tar

2. 安装MySQL

前面提到Hive允许将元数据存储于本地或远程的外部数据库中，这种设置可以支持Hive的多会话生产环境，在本案例中采用MySQL作为Hive的元数据存储库。

卸载Centos7自带mariadb# 查找rpm -qa|grep mariadb# mariadb-libs-5.5.52-1.el7.x86_64# 卸载rpm-e mariadb-libs-5.5.52-1.el7.x86_64 --nodeps
解压mysql# 创建mysql安装包存放点mkdir /opt/server/mysql# 解压tar xvf mysql-5.7.34-1.el7.x86_64.rpm-bundle.tar -C /opt/server/mysql/
执行安装# 安装依赖yum -yinstall libaioyum -yinstall libncurses*yum -yinstall perl perl-devel# 切换到安装目录cd /opt/server/mysql/# 安装rpm-ivh mysql-community-common-5.7.34-1.el7.x86_64.rpm rpm-ivh mysql-community-libs-5.7.34-1.el7.x86_64.rpm rpm-ivh mysql-community-client-5.7.34-1.el7.x86_64.rpm rpm-ivh mysql-community-server-5.7.34-1.el7.x86_64.rpm
启动Mysql#启动mysqlsystemctl start mysqld.service#查看生成的临时root密码cat /var/log/mysqld.log |grep password

在这里插入图片描述

修改初始的随机密码# 登录mysqlmysql -u root -pEnter password: #输入在日志中生成的临时密码# 更新root密码设置为rootset global validate_password_policy=0;set global validate_password_length=1;setpassword=password('root');
授予远程连接权限grant all privileges on *.* to 'root' @'%' identified by 'root';# 刷新flush privileges;
控制命令#mysql的启动和关闭状态查看systemctl stop mysqldsystemctl status mysqldsystemctl start mysqld#建议设置为开机自启动服务systemctl enable mysqld#查看是否已经设置自启动成功systemctl list-unit-files |grep mysqld

3. Hive安装配置

解压安装包# 切换到安装包目录cd /opt/tools# 解压到/root/server目录tar-zxvf apache-hive-3.1.3-bin.tar.gz -C /opt/server/
解决Hive与Hadoop之间guava版本差异，Hive与Hadoop都存在此jar包，不过版本不同，需要删除一个。cd /opt/server/apache-hive-3.1.3-bin/rm-rf lib/guava-19.0.jarcp /opt/server/hadoop-3.3.0/share/hadoop/common/lib/guava-27.0-jre.jar ./lib/
添加mysql_jdbc驱动到hive安装包lib目录下# 上传mysql-connector-java-5.1.38.jarcd /opt/server/apache-hive-3.1.3-bin/lib
修改hive环境变量文件，指定Hadoop的安装路径cd /opt/server/apache-hive-3.1.3-bin/confcp hive-env.sh.template hive-env.shvim hive-env.sh# 加入以下内容HADOOP_HOME=/opt/server/hadoop-3.3.0exportHIVE_CONF_DIR=/opt/server/apache-hive-3.1.3-bin/confexportHIVE_AUX_JARS_PATH=/opt/server/apache-hive-3.1.3-bin/libexportHADOOP_HEAPSIZE=1024hive启动的时候，默认申请的jvm堆内存大小为256M，jvm堆内存申请的太小，导致后期开启本地模式，执行复杂的sql时经常会报错：java.lang.OutOfMemoryError: Java heap space，因此最好提前调整一下HADOOP_HEAPSIZE这个参数。
整合hadoop在hadoop的配置文件core-site.xml中添加如下属性，hivesever2的模拟用户功能，依赖于Hadoop提供的proxy user（代理用户功能），只有Hadoop中的代理用户才能模拟其他用户的身份访问Hadoop集群。因此，需要将hiveserver2的启动用户设置为Hadoop的代理用户，配置方式如下：<property><name>hadoop.proxyuser.root.hosts</name><value>*</value></property><property><name>hadoop.proxyuser.root.groups</name><value>*</value></property><property><name>hadoop.proxyuser.root.users</name><value>*</value></property>需要重启Hadoop集群
新建 hive-site.xml 文件，内容如下，主要是配置存放元数据的 MySQL 的地址、驱动、用户名和密码等信息vim hive-site.xml``````<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration><property><name>javax.jdo.option.ConnectionURL</name><value> jdbc:mysql://server:3306/hive?createDatabaseIfNotExist=true&useSSL=false&useUnicode=true&characterEncoding=UTF-8</value></property><property><name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.jdbc.Driver</value></property><property><name>javax.jdo.option.ConnectionUserName</name><value>root</value></property><property><name>javax.jdo.option.ConnectionPassword</name><value>root</value></property><property><name>hive.server2.thrift.bind.host</name><value>server</value></property><property><name>hive.server2.thrift.port</name><value>10000</value></property><property><name>hive.metastore.uris</name><value>thrift://server:9083</value></property></configuration>
初始化元数据库，当使用的 hive 是 1.x 版本时，可以不进行初始化操作，Hive 会在第一次启动的时候会自动进行初始化，但不会生成所有的元数据信息表，只会初始化必要的一部分，在之后的使用中用到其余表时会自动创建；
当使用的 hive 是 2以上版本时，必须手动初始化元数据库，初始化命令：cd /opt/server/apache-hive-3.1.3-bin/bin./schematool -dbType mysql -initSchema
初始化成功会在mysql中创建74张表

在这里插入图片描述

4. metastore服务

Metastore即元数据服务。Metastore服务的作用是管理metadata元数据，对外暴露服务地址，让各种客户端通过连接metastore服务，由metastore再去连接MySQL数据库来存取元数据。

有了metastore服务，就可以有多个客户端同时连接，而且这些客户端不需要知道MySQL数据库的用户名和密码，只需要连接metastore 服务即可。某种程度上也保证了hive元数据的安全。

为方便后续使用Hive相关命令，将Hive加入到环境变量中。

添加环境变量vim /etc/profileexportHIVE_HOME=/opt/server/apache-hive-3.1.2-binexportPATH=$HIVE_HOME/bin:$PATH
使用配置的环境变量立即生效source /etc/profile
启动metastore服务#前台启动关闭ctrl+c/opt/server/apache-hive-3.1.3-bin/bin/hive --service metastore#前台启动开启debug日志/opt/server/apache-hive-3.1.3-bin/bin/hive --service metastore --hiveconfhive.root.logger=DEBUG,console #后台启动进程挂起关闭使用jps + kill -9 日志将会被记录到当前目录的metastore.log中nohup /opt/server/apache-hive-3.1.3-bin/bin/hive --service metastore >metastore.log 2>&1&#nohup：放在命令开头，表示不挂起，也就是关闭终端进程也继续保持运行状态#&：放在命令结尾，表示后台运行#2>&1：表示将错误重定向到标准输出上#一般会组合使用：nohup [xxx命令操作]> file 2>&1 &，表示将xxx命令运行的结果输出到file中，并保持命令启动的进程在后台运行。

第02节. Hive客户端的使用

1. 客户端介绍

Hive发展至今，总共历经了两代客户端工具

第一代客户端（deprecated不推荐使用）：$HIVE_HOME/bin/hive, 是一个 shellUtil。主要功能：一是可用于以交互或批处理模式运行Hive查询；二是用于Hive相关服务的启动，比如metastore服务。
第二代客户端（recommended 推荐使用）：$HIVE_HOME/bin/beeline，是一个JDBC客户端，是官方推荐使用的Hive命令行工具，和第一代客户端相比，性能加强安全性提高。

2. HiveServer2服务

Hive的hiveserver2服务的作用是提供jdbc/odbc接口，为用户提供远程访问Hive数据的功能，例如用户期望在个人电脑中访问远程服务中的Hive数据，就需要用到Hiveserver2。

HiveServer2通过Metastore服务读写元数据。所以在远程模式下，启动HiveServer2之前必须先首先启动 metastore服务。

远程模式下，Beeline客户端只能通过HiveServer2服务访问Hive。而bin/hive是通过Metastore服务访问的。

两代客户端的区别：

启动hiveserver2服务

nohup /opt/server/apache-hive-3.1.3-bin/bin/hiveserver2 >> hiveServer2.log 2>&1&

3. Hive CLI的使用

help命令

使用 hive -H 或者 hive --help 命令可以查看所有命令的帮助，显示如下：

usage: hive
 -d,--define <key=value>         Variable subsitution to apply to hive 
                                 commands. e.g. -dA=B or --defineA=B --定义用
户自定义变量
   --database<databasename>     Specify the database to use -- 指定使用的数据库
 -e<quoted-query-string>         SQL from command line   -- 执行指定的 SQL
 -f<filename>                   SQL from files   --执行 SQL 脚本
 -H,--help                       Print help information -- 打印帮助信息
   --hiveconf<property=value>   Use value for given property   --自定义配置
   --hivevar<key=value>         Variable subsitution to apply to hive --自定义
变量
                                 commands. e.g. --hivevarA=B
 -i<filename>                   Initialization SQL file --在进入交互模式之前运行
初始化脚本
 -S,--silent                     Silent mode in interactive shell   --静默模式
 -v,--verbose                     Verbose mode (echo executed SQL to the 
console) --详细模式

交互式命令行

直接使用 Hive 命令，不加任何参数，即可进入交互式命令行，输入show databases命令可以看到默认的数据库，则代表连接成功。

在这里插入图片描述

执行SQL命令

在不进入交互式命令行的情况下，可以使用 hive -e 执行 SQL 命令。

hive -e 'select * from emp';

执行SQL脚本

用于执行的 sql 脚本可以在本地文件系统，也可以在 HDFS 上。

# 本地文件系统
hive -f /usr/file/simple.sql;# HDFS文件系统
hive -f hdfs://node01:8020/tmp/simple.sql;

创建测试数据库

createdatabase test;--创建数据库

第一次创建数据库时，会在HDFS自动创建初始目录，用户Hive数据存储，此步必须完成，否则后面的beeline无法连接。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xawdiLL6-1672287568722)(5.Hive安装.assets/image-20221223202405126.png)]

4. beeline客户端

使用命令行客户端beeline进行远程访问

# 启动beeline客户端
./beeline -u jdbc:hive2://192.168.80.100:10000 -n root
show databases;

5. DataGrip可视化客户端

操作Hive时，有很多可视化的第三方客户端可供选择，常见的有DataGrip、Dbeaver等，这些都是通过JDBC的方式连接HiveServer2的图形界面工具，使用第三方的可视化工具开发SQL会更方便快捷。

DataGrip是由JetBrains公司推出的数据库管理软件，DataGrip支持几乎所有主流的关系数据库产品，如DB2、Derby 、MySQL、Oracle、SQL Server等，也支持几乎所有主流的大数据生态圈SQL软件。

DataGrip提供免费的30天试用（2020版本不需要注册账号即可使用），下载地址：https://www.jetbrains.com/zh-cn/datagrip/download/other.html

创建项目

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vzFd4XUt-1672287568723)(5.Hive安装.assets/image-20221223204943060.png)]

关联本地目录，后续创建的代码都会自动存储到此目录

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7r0g0Gck-1672287568724)(5.Hive安装.assets/image-20221223205034704.png)]

创建SQL文件

配置数据源

安装驱动

下载

下载驱动后，修改连接信息

查看数据库信息

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7BHPy4L8-1672287568724)(5.Hive安装.assets/image-20221223203048225.png)]

切换默认数据库

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ICmXkh6b-1672287568725)(5.Hive安装.assets/image-20221223202939743.png)]

执行SQL

选中需要执行的SQL，点击运行按钮即可

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WmaKdDnz-1672287568725)(5.Hive安装.assets/image-20221223203155119.png)]

第02节 Hive简单使用

在hive中创建、切换数据库，创建表并执行插入数据操作，最后查询是否插入成功。

1. 基本操作

连接Hivehive
数据库操作createdatabase test;--创建数据库showdatabases;--列出所有数据库use test;--切换数据库
表操作-- 建表createtable t_student(id int,name varchar(255));-- 插入一条数据insertintotable t_student values(1,"potter");-- 查询表数据select*from t_student;在执行插入数据的时候，发现插入速度极慢，sql执行时间很长，花费了26秒，并且显示了MapReduce程序的进度

2. 查看YARN及HDFS

登录Hadoop YARN观察是否有MapReduce程序执行，地址：http://192.168.40.100:8088，需要根据自己的服务器IP进行更换

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6aWLJ86i-1672287568726)(5.Hive入门.assets/image-20211110113345560.png)]

发现运行的任务名称就是所执行的SQL语句，任务的类型为MapReduce，最终状态为SUCCEEDED。

登录Hadoop HDFS浏览文件系统，根据Hive的数据模型，表的数据最终是存储在HDFS和表对应的文件夹下的。

地址：http://192.168.40.100:9870/，需要根据自己的服务器IP进行更换

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1TrYcjGj-1672287568727)(5.Hive入门.assets/image-20211110113611203.png)]

3. 总结

Hive SQL语法和标准SQL很类似,使得学习成本降低不少。
Hive底层是通过MapReduce执行的数据插入动作,所以速度慢。
如果大数据集这么一条一条插入的话是非常不现实的，成本极高。
Hive应该具有自己特有的数据插入表方式，结构化文件映射成为表。

标签： hive mysql linux

本文转载自: https://blog.csdn.net/weixin_53306029/article/details/128479661
版权归原作者 …狂奔的蜗牛～ 所有，如有侵权，请联系我们删除。

Linux虚拟机安装Hive(mysql安装)

Hive安装

第01节 Hive安装部署

1. 安装前准备

2. 安装MySQL

3. Hive安装配置

4. metastore服务

第02节. Hive客户端的使用

1. 客户端介绍

2. HiveServer2服务

3. Hive CLI的使用

4. beeline客户端

5. DataGrip可视化客户端

第02节 Hive简单使用

1. 基本操作

2. 查看YARN及HDFS

3. 总结

发表评论

“Linux虚拟机安装Hive(mysql安装)”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航