Spark 并行度

文章目录

1. Spark 并行度

Spark的并行计算指的是在同一时间内，有多少个task在同时运行。

并行度

：并行能力的设置，比如设置并行度6，其实就是要6个task并行再跑，在有了6个task并行的前提下，rdd的分区就被规划成6个分区了。

2. Spark 设置并行度

在

代码中

和

配置文件中以及

提交程序的客户端参数`中设置

全局并行度配置参数：

spark.default.parallelism

优先级从高到低：

代码中
客户端提交参数
配置文件
默认（默认1，但是不会全部都以1来跑，多数时候基于读取文件的分片数据来作为默认并行度）

实现：

配置文件设置：

# conf/spark-defaults.conf中设置
spark.default.parallelism 100

在客户端提交参数中设置：

bin/spark-submit --conf "spark.default.parallelism=100"

在代码中设置：

conf = SparkConf()
conf.set("spark.default.parallelism", "100")

针对RDD的并行度设置-不推荐

只能在代码中写，算子：repartition算子、coalesce算子、partitionBy算子

3. 集群中如何规划设置并行度

建议：

设置为CPU总核心的2~10倍

比如集群可用CPU核心是100个，建议并行度设置200~1000
确保是CPU核心的整数倍即可，最小是2倍，最大一般10倍

为什么设置最少2倍？

CPU的一个核心同一时间只能干一件事情。所以，在100个核心的情况下，设置100个并行，就能让CPU 100%出力，但是这种设置下，如果task的压力不均衡，某些task先执行完了，就会导致某个CPU核心的空闲。所以，我们将task（并行）分配的数量变多，比如800个并行，同一时间只有100个在运行，700个在等待，但是可以确保某个task运行完了，后续有task补上，不让cpu闲下来，最大程度利用集群的资源。

规划并行度，

只看集群总CPU核数

标签： spark 大数据分布式

本文转载自: https://blog.csdn.net/weixin_44639720/article/details/130032025
版权归原作者 不忘初欣丶 所有，如有侵权，请联系我们删除。

文章目录

1. Spark 并行度

2. Spark 设置并行度

3. 集群中如何规划设置并行度

发表评论

“Spark 并行度”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航