0


PySpark环境配置

首先,要知道PySpark是Spark为Python提供的API库,因此使用pip install pyspark下载pyspark不等于下载了spark。因此,配置pyspark环境,首先需要下载spark。

(1)linux下载spark的命令:

wget https://dlcdn.apache.org/spark/spark-3.3.1/spark-3.3.1-bin-hadoop3.tgz

(2)spark运行环境需要java,因此需要下载java。

(3)下载好jdk和spark之后,需要在.bashrc中配置JAVA_HOMESPARK_HOME:

export JAVA_HOME=/home/***/softwares/jdk1.8.0_241
export SPARK_HOME=/home/***/softwares/spark-3.3.1-bin-hadoop3

(4)配置成功。使用pyspark打开交互式环境。


本文转载自: https://blog.csdn.net/Maxi_0902/article/details/128651865
版权归原作者 Maxi_0902 所有, 如有侵权,请联系我们删除。

“PySpark环境配置”的评论:

还没有评论