提示:本文章主要帮助读者在 Windows 操作系统上搭建单机模式的 PySpark 开发环境
文章目录
一、前言
本次环境安装包括:JDK-1.8+jre-1.8+Mysql-8.0+Anaconda3(2022.10)+hadoop-3.2.2+hive-3.1.1(具体环境版本可以有所出入),所有环境安装包均在下面的百度网盘链接。
本文所有环境安装包:
链接: https://pan.baidu.com/s/1df8mrXafdfBuIXWBkq2i1A?pwd=iu5c 提取码: iu5c
PySpark 是基于 Spark 的强大数据处理引擎,结合了 Python 的易用性和 Spark 的高性能、分布式计算能力。它适合大规模数据处理、流式数据分析和机器学习任务,并广泛应用于数据工程、数据科学和商业分析中。
二、JDK
由于Hadoop和Hive基于JDK进行开发,所以在配置虚拟环境前需要安装64位Windows 系统下的 1.8 版本的 JDK。
1.JDK下载
读者可使用本文章所提供的jdk-8u281-windows-x64.exe(注:记住JDK的安装路径)。相关内容如下供读者参考:
参考文章:JDK安装配置教程(保姆级)-CSDN博客
JDK官网:JDK downloads
2.安装步骤
(1) 点击下一步进行傻瓜式安装
(2)选择安装目录,建议安装到D盘根目录D:\jdk-1.8\(路径不要有中文路径),点击下一步
(3)进度完成出现jre安装,jre安装路径与JDK保持一致,如D:\jre1.8,点击下一步。
(4)点击关闭,介绍JDK安装。
3.环境变量配置
(1)方法一:右键此电脑→点击属性→点击高级系统管理→点击环境变量
**方法二**:同时按win+q打开搜索栏,在搜索栏内输入环境变量直接进入
(2)点击系统变量里的新建,输入下面内容:
变量名:JAVA_HOME
变量值:D:\jdk-1.8\ (刚刚JDK的安装地址)
(3)点击系统变量里的新建,新建classpath(步骤和刚才一样)。输入下面内容:
变量名:classpath
**变量值:.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar **
(4)在系统变量中找到path,双击打开。
(5)点击依次新建,输入以下内容:
%JAVA_HOME%\bin
%JAVA_HOME%\jre\bin
4.完成测试
按住win+r,输入cmd,输入java -version,出现下图则安装完成。
三、MYSQL
由于 Hive 通过 MySQL 提供元数据存储服务,所以在配置虚拟环境前需要安装 64 位 Windows 系统下的 8 版本 MySQL。
1.MYSQL下载
读者可使用本文章所提供的**mysql-installer-community-8.0.21.0.msi,**相关内容如下供读者参考**:**
参考文献:MySQL-8.0.21.0社区版安装教程-CSDN博客
MYSQL官网:MySQL
2.安装步骤
(1)点击自定义安装→next。
(2)选择所需的产品内容,将其出现在右边方框内,安装路径选择默认(更换路径有可能会报错)
(3)点击execvte,执行安装
安装完成点击next
(4)配置MYSQL。
(5)选择数据储存引擎
(6)选择配置类型和数据库连接方式。
(7)选择身份验证
第一个"Use Strong Password Encryption for Authentication" 密码加密验证更加安全;
第二个“Use Legacy Authentication Method” 可兼容MySQL5.x版本,兼容性好。
(8)设置账户密码,账户一般默认为Root,密码则为自己设置。
(9) 配置Windows服务--将MySQL Server 配置为Windows Service(与下图一致即可,开机自启自行选择进行设置)
(10)后面一直傻瓜式安装即可
3.环境变量配置
** 打开环境变量界面和JDK环境配置方法一致**
双击系统变量里的path,输入下面内容:
C:\Program Files\MySQL\MySQL Server 8.0\bin (MYSQL的安装目录)
4.完成测试
按住win+r,输入cmd,输入mysql –u root –p,然后输入刚才所设置的MYSQL密码(再次提醒一点要记住自己设置的密码),出现下图则安装完成。
四、Anaconda3
由于虚拟环境基于Anaconda3进行搭建,所以在配置虚拟环境前需要安装64位Windows 系统下的 Anaconda3(Anaconda3-5.2.0 及以上版本)。
1.Anaconda3下载
读者可使用本文章所提供的Anaconda3-2020.11-Windows-x86_64.exe****,相关内容如下供读者参考:
参考文献:Anaconda安装-超详细版(2023)_anaconda安装哪个版本好-CSDN博客
Aanaconda3官网:Aanaconda3 downloads
tip:我用的是Anaconda3-2022.10,版本只要满足要求即可。有需要可以去(安装地址)下载
2.安装步骤
(1)点击next,进行下一步。
(2)点击I Agree。
(3)这里要选择All Users (requires admin privileges),然后点Next >。
(4)这里建议选择除C盘外的安装路径(记住自己的安装地址),选择完后点击next>。
(5)这里勾选第二项。因为如果勾选第一项(“他会自动添加Anaconda至系统PATH环境变量。”),则将会影响其他程序(比如安装的更高版本的Python程序)的使用,后面我们在手动进行环境配置。
(6)后面安装可能需要等一段时间,安装完成后点击next>→finish,完成本次安装。
3.环境变量配置
打开环境变量界面和JDK环境配置方法一致
在系统变量中找到path,双击path,在path中点击新建,依次加入以下内容:
注意下面的D:\anaconda3更换成你自己的安装地址
D:\anaconda3
D:\anaconda3\Scripts
D:\anaconda3\Library\bin
D:\anaconda3\Library\mingw-w64\bin
D:\anaconda3\Library\usr\bin
**最后点击确定,完成配置 **
4.完成测试
按住win+r,输入cmd,输入conda --version,出现下图则安装完成。
五、Hadoop
1.Hadoop安装
将提供的“hadoop-3.2.2.rar”下载到本地,然后解压缩,建议解压缩的路径为 D 盘根目录
2.文件配置
(1)首先在Hadoop文件中找到hadoop-env.cmd文件(如果找不到有可能你的电脑隐藏了后缀,那就直接找hadoop-env文件),右键点击编辑(用记事本打开)。
(2)在 hadoop-env.cmd中找到JAVA_HOME的路径(这一步需要大家耐心的去寻找),讲其路径改为你之前安装的JDK路径。
(3)在本文章给出的安装包中找到这两个文件,将这两个文件复制到C:\windows\System32中。
3.环境变量设置
打开环境变量界面和JDK环境配置方法一致
(1)在系统变量中点击新建,输入以下内容:
变量名:HADOOP_HOME
变量值:D:\hadoop-3.2.2\ (刚刚Hadoop的安装地址)
(2)在系统变量中找path,双击打开,点击新建,输入以下内容:
%HADOOP_HOME%\bin
4.完成测试
按住win+r,输入cmd,输入hadoop,出现下图则安装完成。
六、 Hive
1.Hive安装
将提供的“hive-3.1.1.rar”下载到本地,然后解压缩,建议解压缩的路径为 D 盘根 目录。
2.环境变量配置
打开环境变量界面和JDK环境配置方法一致
(1)在系统变量中点击新建,输入以下内容:
变量名:HIVE_HOME
变量值:D:\hive-3.1.1 (刚刚Hive的安装地址)
(2)在系统变量中找path,双击打开,点击新建,输入以下内容:
%HIVE_HOME%\bin
3.完成测试
按住win+r,输入cmd,输入hive,出现下图则安装完成。
七、PySpark
1.文件配置
(1)读者将本文提供的pyspark.rar下载到本地。
(2)找到anaconda3安装目录中的envs(用于存放虚拟环境文件),将pyspark解压到该文件中。
2.环境变量配置
(1)在系统变量中点击新建,输入以下内容:
变量名:SPARK_HOME
变量值:D:\anaconda3\envs\pyspark\Lib\site-packages\pyspark
(2)在系统变量中找path,双击打开,点击新建,输入以下内容:
%SPARK_HOME%\bin
3.PySpark运行测试
(1) 按住win+r,输入cmd,输入cd /d D:\code(进入项目代码所在的地址),然后输入activate pyspark进入pyspark虚拟环境,最后输入jupyter notebook进入编译环境。
(3)点击右上角new→python3(ipykernel),来新建一个python项目。输入下列代码:
import sys
print(sys.version)
print(sys.executable)
from pyspark.sql import SparkSession
spark = SparkSession.builder.enableHiveSupport().getOrCreate()
spark
**出现下图结果即为成功 **
总结
自此pyspark的环境搭建完毕,搭建过程较为繁琐,大家需要一些耐心来完成。最容易出错的地方为各部分的环境变量配置,少一个都可能使运行测试失败,有不懂的可以在评论区探讨。
版权归原作者 忧郁男神SxxS 所有, 如有侵权,请联系我们删除。