详解 Spark 各种运行环境的搭建

一、Local 环境

本地模式，即不需要其他任何节点资源就可以在本地执行 Spark 代码的环境；区别于 IDEA 开发时的 local 环境

1. 搭建

Spark 下载地址：https://spark.apache.org/downloads.html
下载 spark-3.0.0-bin-hadoop3.2.tgz 安装包并上传到虚拟机上的 /opt/software 目录
将 spark-3.0.0-bin-hadoop3.2.tgz 解压缩到 /opt/module 并修改名称tar-zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/modulecd /opt/modulemv spark-3.0.0-bin-hadoop3.2.tgz spark-local
进入 spark-local 目录执行 bin/spark-shell 检查是否搭建成功cd /opt/module/spark-localbin/spark-shell
查看 Web 监控页面：http://hadoop102:4040

2. 操作

命令行工具：bin/spark-shell# 进入 scala 命令工具sc.textFile("data/word.txt").flatMap(_.split(" ")) .map((_,1)).reduceByKey(_+_).collect().foreach(println)
提交应用：bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master local[2]\./examples/jars/spark-examples_2.12-3.0.0.jar \10- bin/spark-submit 表示提交命令- --class 表示要执行程序的主类- --master local[2] 表示部署模式，默认为本地模式，数字表示分配的虚拟 CPU 核数量- spark-examples_2.12-3.0.0.jar 表示运行的应用类所在的 jar 包- 10 表示程序的入口参数，用于设定当前应用的任务数量

二、Standalone 环境

独立部署模式，只使用 Spark 自身节点运行的集群模式，分为 master 和 workers

1. 集群规划

SparkHadoop102Hadoop103Hadoop104master√worker√√√

2. 搭建

下载 spark-3.0.0-bin-hadoop3.2.tgz 安装包并上传到虚拟机上的 /opt/software 目录
将 spark-3.0.0-bin-hadoop3.2.tgz 解压缩到 /opt/module 并修改名称tar-zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/modulecd /opt/modulemv spark-3.0.0-bin-hadoop3.2.tgz spark-standalone
修改配置文件# 1.进入 spark-standalone 的 conf 目录，将 slaves.template 文件更名为 slavescd /opt/module/spark-standalone/confmv slaves.template slaves# 2.在 slaves 文件中添加 worker 节点hadoop102hadoop103hadoop104# 3.将 spark-env.sh.template 文件更名为 spark-env.shmv spark-env.sh.template spark-env.sh# 4.在 spark-env.sh 文件中添加 JAVA_HOME 环境变量和集群对应的 master 节点exportJAVA_HOME=/opt/module/jdk1.8.0_212SPARK_MASTER_HOST=hadoop102SPARK_MASTER_PORT=7077#注意:7077 端口，相当于 hadoop3 内部通信的 8020 端口，此处的端口需要确认自己的 Hadoop 配置# 5.分发 spark-standalone 目录到其他集群节点xsync spark-standalone
启动集群# 在 hadoop102 的 spark-standalone 目录cd /opt/module/spark-standalonesbin/start-all.sh# 查看进程jps
查看 Web 监控页面：http://hadoop102:8080

3. 测试

bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master spark://hadoop102:7077 \
./examples/jars/spark-examples_2.12-3.0.0.jar \10

参数说明示例–classSpark 程序中包含主函数的类–masterSpark 程序运行的模式(环境)local[*]、spark://hadoop102:7077、Yarn–executor-memory 1G指定每个 executor 可用内存为 1G符合集群内存配置即可，具体情况具体分析–total-executor-cores 2指定所有 executor 使用的 cpu 核数为 2 个–executor-cores指定每个 executor 使用的 cpu 核数application-jar打包好的应用 jar，包含依赖。这个 URL 在集群中全局可见。比如 hdfs://共享存储系统，如果是 file://path ，那么所有的节点的 path 都包含同样的 jarapplication-arguments传给 main()方法的参数

4. 配置历史服务

修改并添加配置# 1.将 spark-defaults.conf.template 文件更名为 spark-defaults.confcd /opt/module/spark-standalone/confmv spark-defaults.conf.template spark-defaults.conf# 2.在 spark-default.conf 文件中配置日志存储路径spark.eventLog.enabled truespark.eventLog.dir hdfs://hadoop102:8020/directory # 注意：需要启动 hadoop 集群，HDFS 上的 directory 目录需要提前存在# 3.在 spark-env.sh 文件中添加日志配置exportSPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 # WEB UI 访问的端口号为 18080-Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/directory #历史服务器日志存储路径-Dspark.history.retainedApplications=30"# 指定保存 Application 历史记录的个数，如果超过这个值，旧的应用程序信息将被删除，这个是内存中的应用数，而不是页面上显示的应用数# 4.分发配置文件(xsync 为自定义分发脚本，详见“Hadoop生产环境集群搭建”文章)xsync conf/
启动 Hadoop 集群并创建日志存储目录cd /opt/module/hadoop-3.1.3sbin/start-dfs.shhadoop fs -mkdir /directory
启动 Spark 集群和历史服务cd /opt/module/spark-standalonesbin/start-all.shsbin/start-history-server.sh
提交应用执行bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master spark://hadoop102:7077 \./examples/jars/spark-examples_2.12-3.0.0.jar \10
查看历史服务：http://hadoop102:18080

5. 配置高可用

5.1 集群规划

规划Hadoop102Hadoop103Hadoop104master√√worker√√√zookeeper√√√

5.2 搭建

修改 spark-env.sh 文件配置内容cd /opt/module/spark-standalone/confvim spark-env.sh#1.注释如下内容：#SPARK_MASTER_HOST=hadoop102#SPARK_MASTER_PORT=7077#2.添加如下内容:#修改 Master 监控页面默认访问端口 8080 为 8989，避免和 Zookeeper 冲突SPARK_MASTER_WEBUI_PORT=8989#Zookeeper配置信息exportSPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hadoop102,hadoop103,hadoop104 -Dspark.deploy.zookeeper.dir=/spark"
分发配置：xsync conf/
启动 Zookeeper 集群
启动 Spark 集群；在 hadoop103 上启动 master 服务#hadoop102cd /opt/module/spark-standalonesbin/start-all.sh#hadoop103cd /opt/module/spark-standalonesbin/start-master.sh
分别查看 hadoop102 和 hadoop103 的 Web 页面：https:://hadoop102:8989 和 https:://hadoop103:8989
提交应用执行bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master spark://hadoop102:7077,hadoop103:7077 \./examples/jars/spark-examples_2.12-3.0.0.jar \10
模拟 master 下线，保证高可用#停止 hadoop102 的 master 进程jpskill-9[pid]#分别访问 web 页面查看状态：https:://hadoop102:8989 和 https:://hadoop103:8989

三、Yarn 模式

由于 Spark 主要是计算框架，而不是资源调度框架，所以本身提供的资源调度并不是它的强项，因此在生产上多集成 Yarn 使用

1. 搭建

下载 spark-3.0.0-bin-hadoop3.2.tgz 安装包并上传到虚拟机上的 /opt/software 目录
将 spark-3.0.0-bin-hadoop3.2.tgz 解压缩到 /opt/module 并修改名称tar-zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/modulecd /opt/modulemv spark-3.0.0-bin-hadoop3.2.tgz spark-yarn
修改 hadoop 安装目录下的 etc/hadoop/yarn-site.xml 配置文件并分发到集群其他节点<property><name>yarn.nodemanager.pmem-check-enabled</name><value>false</value></property><property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value></property>
修改 Spark 配置文件cd /opt/module/spark-yarn/conf#1.将 spark-env.sh.template 文件更名为 spark-env.shmv spark-env.sh.template spark-env.shvim spark-env.sh#2.在 spark-env.sh 文件中添加 JAVA_HOME 和 YARN_CONF_DIR 配置exportJAVA_HOME=/opt/module/jdk1.8.0_212YARN_CONF_DIR=/opt/module/hadoop/etc/hadoop
启动 Hadoop 集群

2. 测试

以集群方式提交应用：不会打印结果bin/spark-submit \--class org.apache.spark.examples.SparkPi \--masteryarn\--deploy-mode cluster \./examples/jars/spark-examples_2.12-3.0.0.jar \10
以客户端方式提交应用：bin/spark-submit \--class org.apache.spark.examples.SparkPi \--masteryarn\--deploy-mode client \./examples/jars/spark-examples_2.12-3.0.0.jar \10

3. 配置历史服务

修改 Spark 配置cd /opt/module/spark-yarn/conf#1.将 spark-defaults.conf.template 文件更名为 spark-defaults.confmv spark-defaults.conf.template spark-defaults.confvim spark-defaults.conf#2.在 spark-defaults.conf 文件中配置日志存储路径和 yarn 历史服务器信息spark.eventLog.enabled truespark.eventLog.dir hdfs://hadoop102:8020/directory #注意：需要启动 hadoop 集群，HDFS 上的目录需要提前存在spark.yarn.historyServer.address=hadoop102:18080spark.history.ui.port=18080#3.在 spark-env.sh 文件中添加日志配置exportSPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.fs.logDirectory=hdfs://hadoop02:8020/directory -Dspark.history.retainedApplications=30"
启动历史服务：sbin/start-history-server.sh
提交应用执行并查看历史服务：https://hadoop103:8088

四、其他模式简介

K8S&Mesos 模式：https://spark.apache.org/docs/latest/running-on-kubernetes.html- Mesos 是 Apache 下的开源分布式资源管理框架- Kubernetes（k8s）是目前最为流行的容器管理工具
Windows 模式：- 将 spark-3.0.0-bin-hadoop3.2.tgz 解压缩到无中文无空格的路径中- 执行解压缩文件路径下 bin 目录中的 spark-shell.cmd 文件，启动 Spark 本地环境- 编写 Scala 程序执行或在 DOS 命令行窗口中执行提交指令spark-submit --class org.apache.spark.examples.SparkPi --master local[2]../examples/jars/spark-examples_2.12-3.0.0.jar 10

六、各模式对比

模式Spark安装机器数需启动的进程所属者应用场景Local1无Spark测试Standalone3Master及WorkerSpark单独部署Yarn1Yarn及HDFSHadoop混合部署

七、常用端口号说明

服务端口Spark 查看当前 Spark-shell 运行任务情况端口号(计算)4040Spark Master 内部通信服务7077Standalone 模式下，Spark Master Web 端口号(资源)8080Spark 历史服务器18080Hadoop YARN 任务运行情况查看8088

标签： spark 大数据分布式

本文转载自: https://blog.csdn.net/weixin_44480009/article/details/139292414
版权归原作者 文刀小桂 所有，如有侵权，请联系我们删除。

详解 Spark 各种运行环境的搭建

一、Local 环境

1. 搭建

2. 操作

二、Standalone 环境

1. 集群规划

2. 搭建

3. 测试

4. 配置历史服务

5. 配置高可用

5.1 集群规划

5.2 搭建

三、Yarn 模式

1. 搭建

2. 测试

3. 配置历史服务

四、其他模式简介

六、各模式对比

七、常用端口号说明

发表评论

“详解 Spark 各种运行环境的搭建”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航