spark-sql建表数据同步到hive

1、基础环境

组件版本备注hadoop3.4.0官方下载hive3.1.3自编译sparkspark-3.5.3-bin-hadoop3官方下载，需要内置hive的jar相关内容paimon0.9.0Maven官方下载jdk1.8.0_41maven3.9.6固定版本

2、停止服务、清理日志

先停止，清理数据

sudo kill -9 $(ps -ef|grep hadoop|gawk '$0 !/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep spark|gawk '$0 !/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep hive|gawk '$0 !/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep hive|gawk '$0 !/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep flink|gawk '$0 !/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep topsa|gawk '$0 !/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep topsec|gawk '$0 !~/grep/ {print $2}' |tr -s '\n' ' ')
rm -rf /cluster/hadoop3/logs/*
rm -rf /cluster/hadoop3/logs/*
rm -rf /cluster/spark/logs/*
rm -rf /cluster/hive/logs/*
rm -rf /cluster/.log
rm -rf /cluster/hadoop3/data/
rm -rf /tmp/*

3、格式化Hadoop并启动

/cluster/hadoop3/bin/hdfs namenode -format
/cluster/hadoop3/sbin/start-all.sh

4、启动spark

/cluster/spark/sbin/start-all.sh

5、启动Hive服务

nohup /cluster/hive/bin/hivemetastore2 > 2a.log &
nohup /cluster/hive/bin/hiveserver2 > 2b.log &

6、Hdfs上创建存储目录

/cluster/hadoop3/bin/hdfs dfs -mkdir -p /spark-eventLog
/cluster/hadoop3/bin/hdfs dfs -mkdir -p /paimon/warehouse/example

7、启动spark-sql

/cluster/spark/bin/spark-sql --jars /cluster/lib/paimon-spark-3.5-0.9.0.jar --conf spark.sql.catalog.paimon=org.apache.paimon.spark.SparkCatalog --conf spark.sql.catalog.paimon.metastore=hive --conf spark.sql.catalog.paimon.uri=thrift://10.10.10.99:9083 --conf spark.sql.catalog.paimon.warehouse=hdfs://10.10.10.99:8020/paimon/warehouse/hive-paimon --conf spark.sql.extensions=org.apache.paimon.spark.extensions.PaimonSparkSessionExtensions --conf spark.serializer=org.apache.spark.serializer.KryoSerializer

8、使用paimon创建数据库、数据表

-- 切换到paimon catalog
USE paimon;

-- 在已建立的paimon catalog中，建立数据库。
CREATE DATABASE my_db;
USE my_db;

-- 建立Paimon表。
CREATE TABLE my_table (
uuid int,
name string,
height double,address string
) TBLPROPERTIES (
'primary-key' = 'uuid'
);

9、插入数据

-- 向Paimon中写入数据。
INSERT INTO paimon.my_db.my_table VALUES (1, 'M', 173.5,'北京市朝阳区'), (2, 'G',185, '上海市'), (3, 'cherry', 168.0,'河北省秦皇岛市');

10、在hive中查看数据

/cluster/hive/bin/beeline
!connect jdbc:hive2://10.10.10.99:10000

输入用户名和密码

备注需要将将paimon-hive-connector-3.1-0.9.0.jar上传到hive的lib目录下/cluster/hive/lib

否则，查询执行select的时候会报错。

使用show databases; show tables 相关命令可以查询数据库和表