Pyspark环境配置（Anaconda3）--保姆级教程

提示：本文章主要帮助读者在 Windows 操作系统上搭建单机模式的 PySpark 开发环境

文章目录

一、前言

    本次环境安装包括：JDK-1.8+jre-1.8+Mysql-8.0+Anaconda3(2022.10)+hadoop-3.2.2+hive-3.1.1（具体环境版本可以有所出入），所有环境安装包均在下面的百度网盘链接。

本文所有环境安装包：
链接: https://pan.baidu.com/s/1df8mrXafdfBuIXWBkq2i1A?pwd=iu5c 提取码: iu5c

    PySpark 是基于 Spark 的强大数据处理引擎，结合了 Python 的易用性和 Spark 的高性能、分布式计算能力。它适合大规模数据处理、流式数据分析和机器学习任务，并广泛应用于数据工程、数据科学和商业分析中。

二、JDK

    由于Hadoop和Hive基于JDK进行开发，所以在配置虚拟环境前需要安装64位Windows 系统下的 1.8 版本的 JDK。

1.JDK下载

读者可使用本文章所提供的jdk-8u281-windows-x64.exe（注：记住JDK的安装路径）。相关内容如下供读者参考：

参考文章：JDK安装配置教程(保姆级)-CSDN博客

JDK官网：JDK downloads

2.安装步骤

（1）点击下一步进行傻瓜式安装

（2）选择安装目录，建议安装到D盘根目录D:\jdk-1.8\（路径不要有中文路径），点击下一步

（3）进度完成出现jre安装，jre安装路径与JDK保持一致，如D:\jre1.8，点击下一步。

（4）点击关闭，介绍JDK安装。

3.环境变量配置

（1）方法一：右键此电脑→点击属性→点击高级系统管理→点击环境变量

     **方法二**：同时按win+q打开搜索栏,在搜索栏内输入环境变量直接进入

（2）点击系统变量里的新建，输入下面内容：

变量名：JAVA_HOME

变量值：D:\jdk-1.8\ （刚刚JDK的安装地址）

（3）点击系统变量里的新建，新建classpath(步骤和刚才一样)。输入下面内容：

变量名：classpath

**变量值：.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar **

（4）在系统变量中找到path，双击打开。

（5）点击依次新建，输入以下内容：

%JAVA_HOME%\bin
%JAVA_HOME%\jre\bin

4.完成测试

按住win＋r,输入cmd,输入java -version，出现下图则安装完成。

三、MYSQL

    由于 Hive 通过 MySQL 提供元数据存储服务，所以在配置虚拟环境前需要安装 64 位 Windows 系统下的 8 版本 MySQL。

1.MYSQL下载

    读者可使用本文章所提供的**mysql-installer-community-8.0.21.0.msi，**相关内容如下供读者参考**：**

参考文献：MySQL-8.0.21.0社区版安装教程-CSDN博客

MYSQL官网：MySQL

2.安装步骤

(1)点击自定义安装→next。

（2）选择所需的产品内容，将其出现在右边方框内，安装路径选择默认(更换路径有可能会报错)

（3）点击execvte,执行安装

安装完成点击next

(4)配置MYSQL。

（5）选择数据储存引擎

(6)选择配置类型和数据库连接方式。

(7)选择身份验证

第一个"Use Strong Password Encryption for Authentication" 密码加密验证更加安全；
第二个“Use Legacy Authentication Method” 可兼容MySQL5.x版本，兼容性好。

（8）设置账户密码，账户一般默认为Root，密码则为自己设置。

（9）配置Windows服务--将MySQL Server 配置为Windows Service（与下图一致即可，开机自启自行选择进行设置）

（10）后面一直傻瓜式安装即可

3.环境变量配置

** 打开环境变量界面和JDK环境配置方法一致**

双击系统变量里的path，输入下面内容：

C:\Program Files\MySQL\MySQL Server 8.0\bin （MYSQL的安装目录）

4.完成测试

按住win＋r,输入cmd,输入mysql –u root –p，然后输入刚才所设置的MYSQL密码（再次提醒一点要记住自己设置的密码），出现下图则安装完成。

四、Anaconda3

    由于虚拟环境基于Anaconda3进行搭建，所以在配置虚拟环境前需要安装64位Windows 系统下的 Anaconda3（Anaconda3-5.2.0 及以上版本）。

1.Anaconda3下载

读者可使用本文章所提供的Anaconda3-2020.11-Windows-x86_64.exe****，相关内容如下供读者参考：

参考文献：Anaconda安装-超详细版(2023)_anaconda安装哪个版本好-CSDN博客

Aanaconda3官网：Aanaconda3 downloads

tip:我用的是Anaconda3-2022.10，版本只要满足要求即可。有需要可以去（安装地址）下载

2.安装步骤

（1）点击next,进行下一步。

（2）点击I Agree。

（3）这里要选择All Users (requires admin privileges)，然后点Next >。

（4）这里建议选择除C盘外的安装路径（记住自己的安装地址），选择完后点击next>。

（5）这里勾选第二项。因为如果勾选第一项（“他会自动添加Anaconda至系统PATH环境变量。”），则将会影响其他程序（比如安装的更高版本的Python程序）的使用，后面我们在手动进行环境配置。

（6）后面安装可能需要等一段时间，安装完成后点击next>→finish，完成本次安装。

3.环境变量配置

打开环境变量界面和JDK环境配置方法一致

在系统变量中找到path,双击path，在path中点击新建，依次加入以下内容：

注意下面的D:\anaconda3更换成你自己的安装地址

D:\anaconda3
D:\anaconda3\Scripts
D:\anaconda3\Library\bin
D:\anaconda3\Library\mingw-w64\bin
D:\anaconda3\Library\usr\bin

**最后点击确定，完成配置 **

4.完成测试

按住win＋r,输入cmd,输入conda --version，出现下图则安装完成。

五、Hadoop

1.Hadoop安装

将提供的“hadoop-3.2.2.rar”下载到本地，然后解压缩，建议解压缩的路径为 D 盘根目录

2.文件配置

（1）首先在Hadoop文件中找到hadoop-env.cmd文件（如果找不到有可能你的电脑隐藏了后缀，那就直接找hadoop-env文件），右键点击编辑（用记事本打开）。

（2）在 hadoop-env.cmd中找到JAVA_HOME的路径（这一步需要大家耐心的去寻找），讲其路径改为你之前安装的JDK路径。

（3）在本文章给出的安装包中找到这两个文件，将这两个文件复制到C:\windows\System32中。

3.环境变量设置

打开环境变量界面和JDK环境配置方法一致

（1）在系统变量中点击新建，输入以下内容：

变量名：HADOOP_HOME

变量值：D:\hadoop-3.2.2\ （刚刚Hadoop的安装地址）

(2)在系统变量中找path，双击打开，点击新建，输入以下内容：

%HADOOP_HOME%\bin

4.完成测试

按住win＋r,输入cmd,输入hadoop，出现下图则安装完成。

六、 Hive

1.Hive安装

将提供的“hive-3.1.1.rar”下载到本地，然后解压缩，建议解压缩的路径为 D 盘根目录。

2.环境变量配置

打开环境变量界面和JDK环境配置方法一致

（1）在系统变量中点击新建，输入以下内容：

变量名：HIVE_HOME

变量值：D:\hive-3.1.1 （刚刚Hive的安装地址）

(2)在系统变量中找path，双击打开，点击新建，输入以下内容：

%HIVE_HOME%\bin

3.完成测试

按住win＋r,输入cmd,输入hive，出现下图则安装完成。

七、PySpark

1.文件配置

（1）读者将本文提供的pyspark.rar下载到本地。

（2）找到anaconda3安装目录中的envs（用于存放虚拟环境文件），将pyspark解压到该文件中。

2.环境变量配置

（1）在系统变量中点击新建，输入以下内容：

变量名：SPARK_HOME

变量值：D:\anaconda3\envs\pyspark\Lib\site-packages\pyspark

(2)在系统变量中找path，双击打开，点击新建，输入以下内容：

%SPARK_HOME%\bin

3.PySpark运行测试

(1) 按住win＋r,输入cmd,输入cd /d D:\code(进入项目代码所在的地址)，然后输入activate pyspark进入pyspark虚拟环境，最后输入jupyter notebook进入编译环境。

（3）点击右上角new→python3(ipykernel)，来新建一个python项目。输入下列代码：

import sys
print(sys.version)
print(sys.executable)

from pyspark.sql import SparkSession
spark = SparkSession.builder.enableHiveSupport().getOrCreate()
spark

**出现下图结果即为成功 **

总结

自此pyspark的环境搭建完毕，搭建过程较为繁琐，大家需要一些耐心来完成。最容易出错的地方为各部分的环境变量配置，少一个都可能使运行测试失败，有不懂的可以在评论区探讨。

标签： python spark 分布式

本文转载自: https://blog.csdn.net/m0_74545293/article/details/142711547
版权归原作者 忧郁男神SxxS 所有，如有侵权，请联系我们删除。

Pyspark环境配置（Anaconda3）--保姆级教程

文章目录

一、前言

二、JDK

1.JDK下载

2.安装步骤

3.环境变量配置

4.完成测试

三、MYSQL

1.MYSQL下载

2.安装步骤

3.环境变量配置

4.完成测试

四、Anaconda3

1.Anaconda3下载

2.安装步骤

3.环境变量配置

4.完成测试

五、Hadoop

1.Hadoop安装

2.文件配置

3.环境变量设置

4.完成测试

六、 Hive

1.Hive安装

2.环境变量配置

七、PySpark

1.文件配置

2.环境变量配置

3.PySpark运行测试

总结

发表评论

“Pyspark环境配置（Anaconda3）--保姆级教程”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航