剖析Spark Shuffle原理（图文详解）

Spark Shuffle

在这里插入图片描述

从逻辑层面来看，Shuffle 是指数据从一个节点重新分布到其他节点的过程，主要发生在需要重新组织数据以完成某些操作时。

RDD血统
在这里插入图片描述

在这里插入图片描述

Shuffle 触发条件：
在这里插入图片描述

Shuffle 过程：

Shuffle 操作的逻辑流程：

在这里插入图片描述

从物理层面来看，Shuffle 涉及到数据在集群中的实际传输和存储过程。

Shuffle 文件存储：

在这里插入图片描述

数据压缩： 为了减少网络传输的开销，Spark 支持在 Shuffle 过程中对数据进行压缩。Spark 可以使用 snappy、lz4 等压缩算法来减少数据量。

Shuffle 操作的阶段：

Map阶段： 这个阶段是 Shuffle 的写入阶段，任务将数据从内存中写入到本地磁盘上的 Shuffle 文件中。每个任务会生成多个文件，这些文件按照分区进行组织。
Reduce阶段： 这个阶段是 Shuffle 的读取阶段，任务从本地磁盘上读取 Shuffle 文件中的数据，并在内存中合并这些数据以进行进一步的计算。数据排序：
Shuffle 过程中的数据通常会被排序，以便进行有效的分组和聚合操作。排序操作也会在磁盘上进行，并在任务执行时加载到内存中。