0


Spark 并行度

文章目录

1. Spark 并行度

Spark的并行计算指的是在同一时间内,有多少个task在同时运行。

并行度

:并行能力的设置,比如设置并行度6,其实就是要6个task并行再跑,在有了6个task并行的前提下,rdd的分区就被规划成6个分区了。

2. Spark 设置并行度

代码中

配置文件中以及

提交程序的客户端参数`中设置

全局并行度配置参数:

spark.default.parallelism

优先级从高到低:

  1. 代码中
  2. 客户端提交参数
  3. 配置文件
  4. 默认(默认1,但是不会全部都以1来跑,多数时候基于读取文件的分片数据来作为默认并行度)

实现:

配置文件设置:

# conf/spark-defaults.conf中设置
spark.default.parallelism 100

在客户端提交参数中设置:

bin/spark-submit --conf "spark.default.parallelism=100"

在代码中设置:

conf = SparkConf()
conf.set("spark.default.parallelism", "100")

针对RDD的并行度设置-不推荐

只能在代码中写,算子:repartition算子、coalesce算子、partitionBy算子

3. 集群中如何规划设置并行度

建议

设置为CPU总核心的2~10倍

比如集群可用CPU核心是100个,建议并行度设置200~1000
确保是CPU核心的整数倍即可,最小是2倍,最大一般10倍

为什么设置最少2倍?

CPU的一个核心同一时间只能干一件事情。所以,在100个核心的情况下,设置100个并行,就能让CPU 100%出力,但是这种设置下,如果task的压力不均衡,某些task先执行完了,就会导致某个CPU核心的空闲。所以,我们将task(并行)分配的数量变多,比如800个并行,同一时间只有100个在运行,700个在等待,但是可以确保某个task运行完了,后续有task补上,不让cpu闲下来,最大程度利用集群的资源。

规划并行度,

只看集群总CPU核数

本文转载自: https://blog.csdn.net/weixin_44639720/article/details/130032025
版权归原作者 不忘初欣丶 所有, 如有侵权,请联系我们删除。

“Spark 并行度”的评论:

还没有评论