0


spark 搭建 及测试

一、搭建单机版集群

1.上传spark-3.2.1-bin-hadoop3.2.tgz到/opt
rz 或 xshell
cd /opt/

2.安装解压,到/usr/local/single/目录下
(1)先建一个single目录
mkdir -p /usr/local/single/
(2)解压
tar -zxvf spark-3.2.1-bin-hadoop3.2.tgz -C /usr/local/single/
3.测试运行,计算SparkPi
进入spark安装目录的bin目录下
./run-example SparkPi 2

运行2个模块 成功为Pi is roughly 3.139435697178486

搭建完全分布式集群

1.上传

2.安装解压,到/usr/local/wanquan/目录下
(1)先建一个wanquan目录
mkdir -p /usr/local/wanquan/
(2)解压
tar -zxvf spark-3.2.1-bin-hadoop3.2.tgz -C /usr/local/wanquan/
(3)重命名
mv spark-3.2.1-bin-hadoop3.2/ spark3
3.配置spark-env.sh
(1)进入安装目录的conf目录
复制spark-env.sh.template,命名为spark-env.sh
cp spark-env.sh.template spark-env.sh
(2)打开spark-env.sh文件
vi spark-env.sh
在尾部添加内容:

hadoop 安装目录 配置文件etc

export JAVA_HOME=/export/servers/
export HADOOP_CONF_DIR=/export/servers/hadoop330/etc/hadoop
export SPARK_MASTER_HOST=hadoop1
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_MEMORY=512m

给运行内存 主机名 端口号7077

export SPARK_WORKER_CORES=1
export SPARK_EXECUTOR_MEMORY=512m
export SPARK_EXECUTOR_CORES=1
export SPARK_WORKER_INSTANCES=1

设置运行内核数 内存 woker 实例(如一个节点运行几个文件)

4.配置workers文件
(1)复制workers.template,命名为workers
cp workers.template workers
vi workers
(2)删除原有内容,添加
hadoop2
hadoop3

5.配置spark-defaults.conf文件
(1)复制spark-defaults.conf.template,命名为spark-defaults.conf
cp spark-defaults.conf.template spark-defaults.conf

(2)打开spark-defaults.conf文件
   vi spark-defaults.conf
  在尾部添加内容:

制定端口 事件日志 开启后spark存的地址,历史文件存放目录

spark.master spark://hadoop1:7077
spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoop1:9000/spark-logs
spark.history.fs.logDirectory hdfs://hadoop1:9000/spark-logs

6.分发spark的安装目录到hadoop2、hadoop3
scp -r /usr/local/wanquan/ hadoop2:/usr/local/
scp -r /usr/local/wanquan/ hadoop3:/usr/local/

7.启动spark

(1)启动spark之前,先启动hadoop
start-all.sh
启动jobhistory,在hadoop安装目录的sbin目录下启动
cd /export/servers/hadoop330/sbin
./mr-jobhistory-daemon.sh start historyserver
jps 进程

(2)创建/spark-logs目录
       hdfs dfs -mkdir /spark-logs
 检查 hadoop1 9870

(3)启动spark集群
切换到spark的安装目录的sbin目录下,去启动
cd /usr/local/wanquan/spark3/sbin

当前目录下启动

     ./start-all.sh 
    jps查看,hadoop1出现master,hadoop2、hadoop3分别出现worker

hadoop1:8080
#单独启动历史服务:
./start-history-server.sh
jps查看hadoop1多了HistoryServer

(4) 启动 shell
在bin 目录下调试
./spark-shell

无报错,有scala字眼
完成!!!

(5) 打开网页
8088 yarn界面
spark节点查看
https://192.168.157.131:8080

8.关闭 保存 拍摄快照
scala quit
在对应进程中关闭
关闭spark集群 ? cd/usr/local/spark3/sbin/
./stop-all.sh
master
worker
关闭hadoop 服务
./stop-all.sh

/export/servers/hadoop330/sbin
关闭历史服务:
./stop-history-server.sh
关闭服务job
./mr-jobhistory-daemon.sh stop historyserver

jps 查看防止遗漏
ps -grep|spark
kill -9 进程号
注意:1.拍快照 spark 完全
2.每次使用完后hadoop要关闭stop-all.sh
尝试西区平台

疑惑:history
在spark-env环境编译中 加入 从hdfs中读取数据
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
单机 hadfs 模式
》》》》scala 应用编写
详细说名
https://dblab.xmu.edu.cn/blog/1307/

标签: spark scala

本文转载自: https://blog.csdn.net/m0_74277460/article/details/136687633
版权归原作者 m0_760 所有, 如有侵权,请联系我们删除。

“spark 搭建 及测试”的评论:

还没有评论