一、搭建单机版集群
1.上传spark-3.2.1-bin-hadoop3.2.tgz到/opt
rz 或 xshell
cd /opt/
2.安装解压,到/usr/local/single/目录下
(1)先建一个single目录
mkdir -p /usr/local/single/
(2)解压
tar -zxvf spark-3.2.1-bin-hadoop3.2.tgz -C /usr/local/single/
3.测试运行,计算SparkPi
进入spark安装目录的bin目录下
./run-example SparkPi 2
运行2个模块 成功为Pi is roughly 3.139435697178486
搭建完全分布式集群
1.上传
2.安装解压,到/usr/local/wanquan/目录下
(1)先建一个wanquan目录
mkdir -p /usr/local/wanquan/
(2)解压
tar -zxvf spark-3.2.1-bin-hadoop3.2.tgz -C /usr/local/wanquan/
(3)重命名
mv spark-3.2.1-bin-hadoop3.2/ spark3
3.配置spark-env.sh
(1)进入安装目录的conf目录
复制spark-env.sh.template,命名为spark-env.sh
cp spark-env.sh.template spark-env.sh
(2)打开spark-env.sh文件
vi spark-env.sh
在尾部添加内容:
hadoop 安装目录 配置文件etc
export JAVA_HOME=/export/servers/
export HADOOP_CONF_DIR=/export/servers/hadoop330/etc/hadoop
export SPARK_MASTER_HOST=hadoop1
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_MEMORY=512m
给运行内存 主机名 端口号7077
export SPARK_WORKER_CORES=1
export SPARK_EXECUTOR_MEMORY=512m
export SPARK_EXECUTOR_CORES=1
export SPARK_WORKER_INSTANCES=1
设置运行内核数 内存 woker 实例(如一个节点运行几个文件)
4.配置workers文件
(1)复制workers.template,命名为workers
cp workers.template workers
vi workers
(2)删除原有内容,添加
hadoop2
hadoop3
5.配置spark-defaults.conf文件
(1)复制spark-defaults.conf.template,命名为spark-defaults.conf
cp spark-defaults.conf.template spark-defaults.conf
(2)打开spark-defaults.conf文件
vi spark-defaults.conf
在尾部添加内容:
制定端口 事件日志 开启后spark存的地址,历史文件存放目录
spark.master spark://hadoop1:7077
spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoop1:9000/spark-logs
spark.history.fs.logDirectory hdfs://hadoop1:9000/spark-logs
6.分发spark的安装目录到hadoop2、hadoop3
scp -r /usr/local/wanquan/ hadoop2:/usr/local/
scp -r /usr/local/wanquan/ hadoop3:/usr/local/
7.启动spark
(1)启动spark之前,先启动hadoop
start-all.sh
启动jobhistory,在hadoop安装目录的sbin目录下启动
cd /export/servers/hadoop330/sbin
./mr-jobhistory-daemon.sh start historyserver
jps 进程
(2)创建/spark-logs目录
hdfs dfs -mkdir /spark-logs
检查 hadoop1 9870
(3)启动spark集群
切换到spark的安装目录的sbin目录下,去启动
cd /usr/local/wanquan/spark3/sbin
当前目录下启动
./start-all.sh
jps查看,hadoop1出现master,hadoop2、hadoop3分别出现worker
hadoop1:8080
#单独启动历史服务:
./start-history-server.sh
jps查看hadoop1多了HistoryServer
(4) 启动 shell
在bin 目录下调试
./spark-shell
无报错,有scala字眼
完成!!!
(5) 打开网页
8088 yarn界面
spark节点查看
https://192.168.157.131:8080
8.关闭 保存 拍摄快照
scala quit
在对应进程中关闭
关闭spark集群 ? cd/usr/local/spark3/sbin/
./stop-all.sh
master
worker
关闭hadoop 服务
./stop-all.sh
/export/servers/hadoop330/sbin
关闭历史服务:
./stop-history-server.sh
关闭服务job
./mr-jobhistory-daemon.sh stop historyserver
jps 查看防止遗漏
ps -grep|spark
kill -9 进程号
注意:1.拍快照 spark 完全
2.每次使用完后hadoop要关闭stop-all.sh
尝试西区平台
疑惑:history
在spark-env环境编译中 加入 从hdfs中读取数据
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
单机 hadfs 模式
》》》》scala 应用编写
详细说名
https://dblab.xmu.edu.cn/blog/1307/
版权归原作者 m0_760 所有, 如有侵权,请联系我们删除。