Spark的容错机制

1，Spark如何保障数据的安全

1、RDD容错机制：persist持久化机制

1）cache算子

功能：将RDD缓存在内存中

语法：cache()

本质：底层调用的还是persist（StorageLevel.MEMORY_ONLY），但是只缓存在内存，如果内存不够，缓存会失败

场景：资源充足，需要将RDD仅缓存在内存中

2）persist算子

功能：将RDD【包含这个RDD的依赖关系】进行缓存，可以自己指定缓存的级别【和cache区别】

语法：persist(StorageLevel)

级别：StorageLevel决定了缓存位置和缓存几份

StorageLevel 有哪些级别：

Spark的StorageLevel共有9个缓存级别：

DISK_ONLY：缓存入硬盘。这个级别主要是讲那些庞大的Rdd，之后仍需使用但暂时不用的，放进磁盘，腾出Executor内存。
DISK_ONLY_2：多一个缓存副本。
MEMORY_ONLY：只使用内存进行缓存。这个级别最为常用，对于马上用到的高频rdd，推荐使用。
MEMORY_ONLY_2：多一个缓存副本。
MEMORY_AND_DISK：先使用内存，多出来的溢出到磁盘，对于高频的大rdd可以使用。
MEMORY_AND_DISK_2：多一个缓存副本。
OFF_HEAP：除了内存、磁盘，还可以存储在OFF_HEAP

场景：根据资源情况，将RDD缓存在不同的地方或者缓存多份

3）unpersist 算子 --释放缓存

功能：将缓存的RDD进行释放

语法：unpersist

unpersist(blocking=True)：等释放完再继续下一步

场景：明确RDD已经不再使用，后续还有很多的代码需要执行，将RDD的数据从缓存中释放，避免占用资源

注意：如果不释放，这个Spark程序结束，也会释放这个程序中的所有内存

2、RDD容错机制：checkpoint检查点机制

问题：为了避免重复构建RDD，可以将RDD进行persist缓存，但是如果缓存丢失，还是会重新构建RDD，怎么解决？

checkpoint：检查点

功能：将RDD的数据【不包含RDD依赖关系】存储在可靠的存储系统中：HDFS上

这个检查点有点类似于：虚拟机中的快照，像里程碑。

# 设置一个检查点目录
 sc.setCheckpointDir("../datas/chk/chk1")
 # 将RDD的数据持久化存储在HDFS
 rs_rdd.checkpoint()
一定要在触发算子之前，调用checkpoint() 否则，检查点中没有数据

**面试：RDD的cache、persist持久化机制和checkpoint检查点机制有什么区别？ **

标签： spark 大数据分布式

本文转载自: https://blog.csdn.net/GDDGHS_/article/details/143525897
版权归原作者 GDDGHS_ 所有，如有侵权，请联系我们删除。

Spark的容错机制

1、RDD容错机制：persist持久化机制

1）cache算子

2）persist算子

3）unpersist 算子 --释放缓存

2、RDD容错机制：checkpoint检查点机制

checkpoint：检查点

发表评论

“Spark的容错机制”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航