PySpark，一个超级强大的 Python 库

大家好！我是炒青椒不放辣，关注我，收看每期的编程干货。

一个简单的库，也许能够开启我们的智慧之门，
一个普通的方法，也许能在危急时刻挽救我们于水深火热，
一个新颖的思维方式，也许能激发我们无尽的创造力，
一个独特的技巧，也许能成为我们的隐形盾牌……

神奇的 Python 库之旅，第 14 章

一、初识 PySpark

PySpark 是 Apache Spark 的 Python API，它让我们能够在 Python 环境中使用 Spark 的强大功能。Spark 是一个快速的、通用的大数据处理引擎，能够以分布式的方式处理大规模数据。通过 PySpark，我们可以使用 Spark 的所有功能，包括数据处理、机器学习、流处理等。

为什么选择 PySpark？

高效处理大数据：Spark 的内存计算能力使得它比传统的 MapReduce 快很多倍。
丰富的 API：PySpark 提供了丰富的 API，支持各种数据操作和处理。
与 Hadoop 兼容：PySpark 可以与 Hadoop 生态系统无缝集成，利用 HDFS、Hive 等工具。
灵活性高：PySpark 兼具 Python 的简洁和 Spark 的强大功能，适合各种数据处理任务。

安装 PySpark
安装 PySpark 非常简单，只需要一行命令：

pip install pyspark

配置 PySpark
在使用 PySpark 之前，我们需要配置 Spark 环境。确保你已经安装了 Java 和 Spark，并将 Spark 的 bin 目录添加到系统的 PATH 环境变量中。

你可以在 Python 脚本中创建 SparkSession 来启动 Spark 应用：

from pyspark.sql import SparkSession

# 创建 SparkSession
spark = SparkSession.builder \
    .appName("PySpark Example") \
    .getOrCreate()print("Spark 版本:", spark.version)

…
Github 项目地址;

https://github.com/apache/spark/tree/master/python/pyspark

…

二、基本操作

创建 RDD
RDD（Resilient Distributed Dataset）是 Spark 的基本数据结构。我们可以通过并行化现有集合或从外部存储读取数据来创建 RDD。

# 并行化集合创建 RDD
data =[1,2,3,4,5]
rdd = spark.sparkContext.parallelize(data)# 从外部存储读取数据创建 RDD
text_rdd = spark.sparkContext.textFile("path/to/file.txt")

基本 RDD 操作
RDD 支持多种操作，包括转换操作和行动操作。转换操作返回一个新的 RDD，而行动操作返回一个值。

# 转换操作
mapped_rdd = rdd.map(lambda x: x *2)
filtered_rdd = rdd.filter(lambda x: x %2==0)# 行动操作
collected_data = mapped_rdd.collect()# 收集所有元素
sum_of_elements = rdd.reduce(lambda x, y: x + y)# 求和print("收集的数据:", collected_data)print("元素和:", sum_of_elements)

…

三、DataFrame 和 Spark SQL

DataFrame 是 PySpark 提供的高级数据结构，类似于 Pandas 的 DataFrame，但可以处理大规模数据。Spark SQL 则允许我们使用 SQL 查询来操作 DataFrame。

创建 DataFrame
我们可以通过结构化数据文件（如 CSV、JSON）、现有 RDD 或 Pandas DataFrame 来创建 Spark DataFrame。

# 从 CSV 文件创建 DataFrame
df = spark.read.csv("path/to/file.csv", header=True, inferSchema=True)# 从 JSON 文件创建 DataFrame
json_df = spark.read.json("path/to/file.json")# 从 Pandas DataFrame 创建 Spark DataFrameimport pandas as pd

pandas_df = pd.DataFrame({"name":["Alice","Bob"],"age":[25,30]})
spark_df = spark.createDataFrame(pandas_df)

基本 DataFrame 操作
DataFrame 支持多种操作，包括选择、过滤、聚合等。

基本 DataFrame 操作
DataFrame 支持多种操作，包括选择、过滤、聚合等。

使用 Spark SQL
我们可以将 DataFrame 注册为临时视图，并使用 SQL 查询来操作数据。

# 注册临时视图
df.createOrReplaceTempView("people")# 使用 SQL 查询
result = spark.sql("SELECT name, age FROM people WHERE age > 25")
result.show()

…

四、机器学习与流处理

PySpark 提供了丰富的机器学习和流处理功能，分别通过 MLlib 和 Structured Streaming 实现。

机器学习
MLlib 是 Spark 的机器学习库，提供了多种算法和工具。让我们看一个简单的机器学习例子，使用线性回归模型。

from pyspark.ml.regression import LinearRegression

# 创建训练数据
training = spark.createDataFrame([(1.0,2.0),(2.0,3.0),(3.0,4.0),(4.0,5.0),],["label","features"])# 创建线性回归模型
lr = LinearRegression()# 训练模型
model = lr.fit(training)# 打印模型系数和截距print("系数:", model.coefficients)print("截距:", model.intercept)

流处理
Structured Streaming 是 Spark 提供的流处理引擎，支持对实时数据流的处理。

from pyspark.sql.functions import split

# 创建流式 DataFrame
lines = spark.readStream.format("socket").option("host","localhost").option("port",9999).load()# 分割行中的单词
words = lines.select(split(lines.value," ").alias("word"))# 计数每个单词出现的次数
word_counts = words.groupBy("word").count()# 启动查询并将结果输出到控制台
query = word_counts.writeStream.outputMode("complete").format("console").start()

query.awaitTermination()

…

五、实战案例

处理大规模日志数据
让我们用 PySpark 处理大规模日志数据，计算每个 IP 地址的访问次数。

# 读取日志文件
log_df = spark.read.text("path/to/log/file")# 提取 IP 地址
ip_df = log_df.select(split(log_df.value," ")[0].alias("ip"))# 计算每个 IP 地址的访问次数
ip_counts = ip_df.groupBy("ip").count().orderBy("count", ascending=False)# 显示结果
ip_counts.show()

机器学习分类
让我们用 PySpark 进行一个简单的机器学习分类任务，使用决策树分类器。

from pyspark.ml.classification import DecisionTreeClassifier
from pyspark.ml.feature import VectorAssembler

# 创建样本数据
data = spark.createDataFrame([(1.0,1.0,0.0),(1.0,2.0,1.0),(2.0,2.0,0.0),(2.0,3.0,1.0),],["feature1","feature2","label"])# 将特征组合成向量
assembler = VectorAssembler(inputCols=["feature1","feature2"], outputCol="features")
data = assembler.transform(data)# 创建决策树分类器
dt = DecisionTreeClassifier(featuresCol="features", labelCol="label")# 训练模型
model = dt.fit(data)# 预测
predictions = model.transform(data)# 显示预测结果
predictions.select("features","label","prediction").show()

更多功能、详细用法可参考官方文档：

https://spark.apache.org/docs/latest/api/python/index.html

…

六、结语

今天我和各位靓仔们一起探索了 PySpark 这个强大的 Python 大数据处理库。从基础操作到高级应用，再到实际案例，相信你已经对 PySpark 有了全面的了解和掌握。通过这种方式，我们可以更加轻松地处理大规模数据，提高数据处理的效率和效果。

希望你能将这些知识应用到实际项目中，享受大数据处理的乐趣。编码不仅是一种技能，更是一门艺术。愿你在数据的海洋里不断探索，成为一个真正的数据大师！

在这里插入图片描述
…

七、作者Info

Author：小鸿的摸鱼日常

Goal：让编程更有趣！专注于 Web 开发、爬虫，游戏开发，数据分析、自然语言处理，AI 等，期待你的关注，让我们一起成长、一起Coding！

版权说明：本文禁止抄袭、转载，侵权必究！

标签： python Python 库之旅 PySpark

本文转载自: https://blog.csdn.net/qq_44000141/article/details/141527788
版权归原作者 炒青椒不放辣 所有，如有侵权，请联系我们删除。

PySpark，一个超级强大的 Python 库

目录

一、初识 PySpark

二、基本操作

三、DataFrame 和 Spark SQL

四、机器学习与流处理

五、实战案例

六、结语

七、作者Info

发表评论

“PySpark，一个超级强大的 Python 库”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航