0


Pyspark环境配置(Anaconda3)--保姆级教程

提示:本文章主要帮助读者在 Windows 操作系统上搭建单机模式的 PySpark 开发环境

文章目录


一、前言

    本次环境安装包括:JDK-1.8+jre-1.8+Mysql-8.0+Anaconda3(2022.10)+hadoop-3.2.2+hive-3.1.1(具体环境版本可以有所出入),所有环境安装包均在下面的百度网盘链接。

本文所有环境安装包:
链接: https://pan.baidu.com/s/1df8mrXafdfBuIXWBkq2i1A?pwd=iu5c 提取码: iu5c

    PySpark 是基于 Spark 的强大数据处理引擎,结合了 Python 的易用性和 Spark 的高性能、分布式计算能力。它适合大规模数据处理、流式数据分析和机器学习任务,并广泛应用于数据工程、数据科学和商业分析中。      

二、JDK

    由于Hadoop和Hive基于JDK进行开发,所以在配置虚拟环境前需要安装64位Windows 系统下的 1.8 版本的 JDK。

1.JDK下载

读者可使用本文章所提供的jdk-8u281-windows-x64.exe(注:记住JDK的安装路径)。相关内容如下供读者参考:

参考文章:JDK安装配置教程(保姆级)-CSDN博客

JDK官网:JDK downloads

2.安装步骤

(1) 点击下一步进行傻瓜式安装

2f551053df01490ab64b2a087faebc93.png

(2)选择安装目录,建议安装到D盘根目录D:\jdk-1.8\(路径不要有中文路径),点击下一步

290bbcce64ce4327a874eb1e05f20f02.png

(3)进度完成出现jre安装,jre安装路径与JDK保持一致,如D:\jre1.8,点击下一步。

3ff78bb241ef431b8ae4c6f5617577d7.png

(4)点击关闭,介绍JDK安装。

c1299f8ab650484dae1b97730cf64f80.png

3.环境变量配置

(1)方法一:右键此电脑→点击属性→点击高级系统管理→点击环境变量

     **方法二**:同时按win+q打开搜索栏,在搜索栏内输入环境变量直接进入

090aca8ab0ca463ea7118e847aec0d45.png

(2)点击系统变量里的新建,输入下面内容:

变量名:JAVA_HOME

变量值:D:\jdk-1.8\ (刚刚JDK的安装地址)

007d08d09e2d432990e640e5f588916f.png

(3)点击系统变量里的新建,新建classpath(步骤和刚才一样)。输入下面内容:

变量名:classpath

**变量值:.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar **

d747a64b3a844f9d94ca850d2c0eb7ab.png

(4)在系统变量中找到path,双击打开。

c8ef97f7ec7241b09f12154c1d81c64b.png

(5)点击依次新建,输入以下内容:

%JAVA_HOME%\bin
%JAVA_HOME%\jre\bin

4.完成测试

按住win+r,输入cmd,输入java -version,出现下图则安装完成。

406a85d031af42ceaead028aba58f32d.png

三、MYSQL

    由于 Hive 通过 MySQL 提供元数据存储服务,所以在配置虚拟环境前需要安装 64 位 Windows 系统下的 8 版本 MySQL。

1.MYSQL下载

    读者可使用本文章所提供的**mysql-installer-community-8.0.21.0.msi,**相关内容如下供读者参考**:**

参考文献:MySQL-8.0.21.0社区版安装教程-CSDN博客

MYSQL官网:MySQL

2.安装步骤

(1)点击自定义安装→next。

e84ccd3b3f4e49a7b44f446b84b6e40f.png

(2)选择所需的产品内容,将其出现在右边方框内,安装路径选择默认(更换路径有可能会报错)

c91f7d32eafd4be7ab9315b0e0e262aa.png

(3)点击execvte,执行安装

133933422d884505aeb11a558971ba1a.png

安装完成点击next

(4)配置MYSQL。

faafad019d8047478d98ea89b31c04f9.png

(5)选择数据储存引擎

e6b176a51a574923b1158d7c6f33b9bf.png

(6)选择配置类型和数据库连接方式。

d79aa1d00d8f438bb78a01fd70383a41.png

(7)选择身份验证

af431c3bdc844114a664949732c88f00.png

第一个"Use Strong Password Encryption for Authentication" 密码加密验证更加安全;
第二个“Use Legacy Authentication Method” 可兼容MySQL5.x版本,兼容性好。

(8)设置账户密码,账户一般默认为Root,密码则为自己设置。

c56992ce114a4cc894eaae8246130854.png

(9) 配置Windows服务--将MySQL Server 配置为Windows Service(与下图一致即可,开机自启自行选择进行设置)

251e66c20ddb46b78f5ab1ef332224d4.png

(10)后面一直傻瓜式安装即可

f3379b6b25944cd4aabf50c2b5c7914d.png

3.环境变量配置

** 打开环境变量界面和JDK环境配置方法一致**

双击系统变量里的path,输入下面内容:

C:\Program Files\MySQL\MySQL Server 8.0\bin (MYSQL的安装目录)

3e79d190c8ac4931ac82d3c38cf75fc1.png

4.完成测试

按住win+r,输入cmd,输入mysql –u root –p,然后输入刚才所设置的MYSQL密码(再次提醒一点要记住自己设置的密码),出现下图则安装完成。

f3428aa0f52e49799590966ff11a27b5.png

四、Anaconda3

    由于虚拟环境基于Anaconda3进行搭建,所以在配置虚拟环境前需要安装64位Windows 系统下的 Anaconda3(Anaconda3-5.2.0 及以上版本)。

1.Anaconda3下载

读者可使用本文章所提供的Anaconda3-2020.11-Windows-x86_64.exe****,相关内容如下供读者参考

参考文献:Anaconda安装-超详细版(2023)_anaconda安装哪个版本好-CSDN博客

Aanaconda3官网:Aanaconda3 downloads

tip:我用的是Anaconda3-2022.10,版本只要满足要求即可。有需要可以去(安装地址)下载

2.安装步骤

(1)点击next,进行下一步。

8b976b35876044b5a3f43bce56563e96.png

(2)点击I Agree。

81ae5451bca84f04ac63f5313ff81a0e.png

(3)这里要选择All Users (requires admin privileges),然后点Next >。

649a6f34045d4483a2612d2d7b139339.png

(4)这里建议选择除C盘外的安装路径(记住自己的安装地址),选择完后点击next>。

5125795861da4ad880d4c2b4a978e907.png

(5)这里勾选第二项。因为如果勾选第一项(“他会自动添加Anaconda至系统PATH环境变量。”),则将会影响其他程序(比如安装的更高版本的Python程序)的使用,后面我们在手动进行环境配置。

c6e4fece7af64c59a3a9e39f366b0806.png

(6)后面安装可能需要等一段时间,安装完成后点击next>→finish,完成本次安装。

4e276403e1a3408da6e10352a5e63aca.png

3.环境变量配置

打开环境变量界面和JDK环境配置方法一致

在系统变量中找到path,双击path,在path中点击新建,依次加入以下内容:

注意下面的D:\anaconda3更换成你自己的安装地址

D:\anaconda3
D:\anaconda3\Scripts
D:\anaconda3\Library\bin
D:\anaconda3\Library\mingw-w64\bin
D:\anaconda3\Library\usr\bin

71c81a60bf1a4a60bbfb4c395b062c22.png

**最后点击确定,完成配置 **

4.完成测试

按住win+r,输入cmd,输入conda --version,出现下图则安装完成。

51df50e7b03f45a2aa2befdcd544f474.png

五、Hadoop

1.Hadoop安装

将提供的“hadoop-3.2.2.rar”下载到本地,然后解压缩,建议解压缩的路径为 D 盘根目录

a9a978adc2f84ae3a681c1bdd96ab9e6.png

2.文件配置

(1)首先在Hadoop文件中找到hadoop-env.cmd文件(如果找不到有可能你的电脑隐藏了后缀,那就直接找hadoop-env文件),右键点击编辑(用记事本打开)。

ba9af23932c64bbc8580476be7b49e63.png

(2)在 hadoop-env.cmd中找到JAVA_HOME的路径(这一步需要大家耐心的去寻找),讲其路径改为你之前安装的JDK路径。

73b9d582252c481093db6ddfe4c6bc8b.png

(3)在本文章给出的安装包中找到这两个文件,将这两个文件复制到C:\windows\System32中。

37b763f9539746c2baa48290db04b1bd.png

3.环境变量设置

打开环境变量界面和JDK环境配置方法一致

(1)在系统变量中点击新建,输入以下内容:

变量名:HADOOP_HOME

变量值:D:\hadoop-3.2.2\ (刚刚Hadoop的安装地址)

5816a7cc422244e993112f377d0a0ce1.png

(2)在系统变量中找path,双击打开,点击新建,输入以下内容:

%HADOOP_HOME%\bin

4aab8e233f4c41b5aeb9ae0f9c05d47d.png

4.完成测试

按住win+r,输入cmd,输入hadoop,出现下图则安装完成。

0a6fbf4f95684c11a8d8648e8a8dd843.png

六、 Hive

1.Hive安装

将提供的“hive-3.1.1.rar”下载到本地,然后解压缩,建议解压缩的路径为 D 盘根 目录。

2.环境变量配置

打开环境变量界面和JDK环境配置方法一致

(1)在系统变量中点击新建,输入以下内容:

变量名:HIVE_HOME

变量值:D:\hive-3.1.1 (刚刚Hive的安装地址)

734a2892210746f7916a499efb4f5e11.png

(2)在系统变量中找path,双击打开,点击新建,输入以下内容:

%HIVE_HOME%\bin

758560c759454ded9564ee0908616f28.png

3.完成测试

按住win+r,输入cmd,输入hive,出现下图则安装完成。

867f8739052c4694b9f65dc232dcc332.png

七、PySpark

1.文件配置

(1)读者将本文提供的pyspark.rar下载到本地。

239498caae7c4778bce8dc2f7dd8e093.png

(2)找到anaconda3安装目录中的envs(用于存放虚拟环境文件),将pyspark解压到该文件中。

f637a767f18a4cb280bb94ccc8ea6db7.png

2.环境变量配置

(1)在系统变量中点击新建,输入以下内容:

变量名:SPARK_HOME

变量值:D:\anaconda3\envs\pyspark\Lib\site-packages\pyspark

(2)在系统变量中找path,双击打开,点击新建,输入以下内容:

%SPARK_HOME%\bin

e2f549e54ef74a968c96878524c632f9.png

3.PySpark运行测试

(1) 按住win+r,输入cmd,输入cd /d D:\code(进入项目代码所在的地址),然后输入activate pyspark进入pyspark虚拟环境,最后输入jupyter notebook进入编译环境。

5fb871782f5140159bd7e24ac1293f74.png

(3)点击右上角new→python3(ipykernel),来新建一个python项目。输入下列代码:

import sys
print(sys.version)
print(sys.executable)

from pyspark.sql import SparkSession
spark = SparkSession.builder.enableHiveSupport().getOrCreate()
spark

**出现下图结果即为成功 **

d260c7c43ecd48a99968a41a65ea3cff.png


总结

自此pyspark的环境搭建完毕,搭建过程较为繁琐,大家需要一些耐心来完成。最容易出错的地方为各部分的环境变量配置,少一个都可能使运行测试失败,有不懂的可以在评论区探讨。

标签: python spark 分布式

本文转载自: https://blog.csdn.net/m0_74545293/article/details/142711547
版权归原作者 忧郁男神SxxS 所有, 如有侵权,请联系我们删除。

“Pyspark环境配置(Anaconda3)--保姆级教程”的评论:

还没有评论