RDD的处理过程

Spark用scala语言实现了RDD的API，程序开发者可以通过调用API对RDD进行操作处理。

下图为RDD的处理过程：

** **

RDD经过一些列的“转换”操作，每一次转换都会产生不同的RDD，以供给下一次“转换”操作使用，直到最后一个RDD经过“行动”操作才会被真正计算处理，并输出到外部数据源中，若中间的数据结果需要复用，则可以进行缓存处理，将数据缓存到内存中。需要注意的是，RDD采用了惰性调用,即在RDD的处理过程中,真正的计算发生在 RDD的“行动”操作，对于“行动”之前的所有“转换”操作，Spark只是记录下“转换”操作应用的一些基础数据集以及RDD生成的轨迹(即RDD相互之间的依赖关系),而不会触发真正的计算处理。

    接下来。将对“转换”操作和“行动”操作进行详细地讲解。

1.转换算子：

****** ******RDD处理过程中的“转换”操作主要用于根据已有的RDD创建新的RDD，每一次通过Transformation算子计算后都会返回一个新RDD，供给下一个转换算子使用。

（1）filter(func)

filter(func)操作会筛选处满足函数func的元素，并返回一个新的数据集。

从test.txt文件中加载数据的方式创建RDD，通过filter操作筛选出含Spark的数据，并组成一个新的RDD****。

val lines = sc.textFile("file:///opt/test.txt") （注：路径自己创建即可。）

val lineWithSpark = lines.filter(line=>line.contains("spark"))

示例：****

（2）map(func)

map(func)操作将每个元素传递到函数func中，并返回一个新的数据集。

示例：从test.txt文件中加载数据的方式创建RDD，通过map操作将文件的每一行内容都拆成一个个单词元素，并组成一个新的RDD。

val lines = sc.textFile("file:///opt/test.txt")

val words = lines.map(line=>line.split(" "))

（3）flatMap(func)

flatMap(func)与map(func)相似，但每个输入的元素都可以映射到0或者多个输出的结果。

示例：从test.txt文件中加载数据的方式创建RDD，通过flatmap操作将文件的每一行内容都拆成一个个单词元素，并组成一个新的RDD。

val lines = sc.textFile("file:///opt/test.txt")

val words = lines.flatMap(line=>line.split(" "))

（4）groupByKey(func)

groupByKey(func)主要用于(Key,Value)键值对的数据集，将用有相同的Key的Value进行分组，返回一个新的(Key,Iterable)形式的数据集。

示例：从test.txt文件中加载数据的方式创建RDD，通过groupByKey操作把(Key,Value)键值对类型的RDD按单词出现次数进行分组，并组成一个新的RDD。

val lines = sc.textFile("file:///opt/test.txt")

**val words = lines.flatMap(line=>line.split(" ")) **

**words.collect **

val groupWords = words.groupByKey()

**groupWords.collect **

（5）reduceByKey

reduceByKey（）主要用于键值对的数据集，返回的是一个新的形式数据集，该数据集是每个Key传递给函数func进行聚合运算后得到的结果。

2 、行动算子

****** **行动算子主要是将在数据集上运行计算后的数值返回到驱动程序，从而触发真正的计算。