一、RDD详解
1.1 什么是RDD
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。
- Dataset:一个数据集合,用于存放数据的。
- Distributed:RDD中的数据是分布式存储的,可用于分布式计算。
- Resilient:RDD中的数据可以存储在内存中或者磁盘中。
1.2 RDD的五大特征
前三个特征每个RDD都具备的,后两个特征可选的
1.2.1 RDD是有分区的
RDD的分区是RDD数据存储最小单位
标签:
大数据
本文转载自: https://blog.csdn.net/weixin_50458070/article/details/135202516
版权归原作者 weixin_50458070 所有, 如有侵权,请联系我们删除。
版权归原作者 weixin_50458070 所有, 如有侵权,请联系我们删除。