Spark on Yarn安装配置

本任务需要使用root用户完成相关配置，已安装Hadoop及需要配置前置环境，具体要求如下：

1、从宿主机/opt目录下将文件spark-3.1.1-bin-hadoop3.2.tgz复制到容器Master中的/opt/software（若路径不存在，则需新建）中，将Spark包解压到/opt/module路径中(若路径不存在，则需新建)，将完整解压命令复制粘贴至客户端桌面【Release\任务A提交结果.docx】中对应的任务序号下；

步骤1：复制和解压Spark安装包
解压文件：将Spark安装包解压到/opt/module目录中。

tar-zxvf /opt/software/spark-3.1.1-bin-hadoop3.2.tgz -C /opt/module

在这里插入图片描述

2、修改容器中/etc/profile文件，设置Spark环境变量并使环境变量生效，在/opt目录下运行命令spark-submit --version，将命令与结果截图粘贴至客户端桌面【Release\任务A提交结果.docx】中对应的任务序号下；

编辑profile文件：使用vi或nano编辑器打开/etc/profile文件。

vim /etc/profile

设置环境变量：在文件末尾添加Spark环境变量。

exportSPARK_HOME=/opt/module/spark-3.1.1-bin-hadoop3.2
exportPATH=$PATH:$SPARK_HOME/bin

使环境变量生效：运行以下命令使环境变量立即生效。

source /etc/profile

验证环境变量：在/opt目录下运行spark-submit --version命令，并截图。

cd /opt
spark-submit --version

-----运行截图

运行截图

3、完成on yarn相关配置，使用spark on yarn 的模式提交$SPARK_HOME/examples/jars/spark-examples_2.12-3.1.1.jar 运行的主类org.apache.spark.examples.SparkPi，将运行结果截图粘贴至客户端桌面【Release\任务A提交结果.docx】中对应的任务序号下（截取Pi结果的前后各5行）。

（运行命令为：spark-submit --master yarn --class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark-examples_2.12-3.1.1.jar）

集群模式来运行一个示例程序。Yarn是Hadoop的一个组件，它用于作业调度和集群资源管理。在Spark中，当使用Yarn模式时，Spark应用程序的调度和资源管理由Yarn来处理。

以下是步骤3的详细解释：
1、提交作业：
使用spark-submit命令来提交作业。这个命令是用来启动Spark应用程序的。
–master yarn参数指定了作业应该以Yarn模式运行。这意味着Spark应用程序将使用Yarn来管理资源。
–class org.apache.spark.examples.SparkPi参数指定了包含应用程序主类的jar文件。在这个例子中，主类是org.apache.spark.examples.SparkPi，它是一个计算Pi值的示例程序。
$SPARK_HOME/examples/jars/spark-examples_2.12-3.1.1.jar是包含示例程序的jar文件路径。
查看运行结果：
一旦作业提交，Yarn将负责启动必要的Spark驱动程序和执行器进程。
SparkPi程序将运行，并计算Pi的近似值。
程序运行完成后，会在控制台输出计算结果。通常，结果会包括Pi的近似值以及计算所需的时间。

使用spark-submit命令以Yarn模式提交SparkPi示例程序。

spark-submit --masteryarn--class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark-examples_2.12-3.1.1.jar

运行结果
运行截图

标签： spark 大数据

本文转载自: https://blog.csdn.net/weixin_44794485/article/details/135758082
版权归原作者 阿峰在学习 所有，如有侵权，请联系我们删除。

Spark on Yarn安装配置