0


【Hive 基础】-- 数据倾斜

1.什么是数据倾斜?

由于数据分布不均匀,导致大量数据集中到一点,造成数据热点。常见现象:一个 hive sql 有100个 map/reducer task, 有一个运行了 20分钟,其他99个 task 只运行了 1分钟。

2.产生数据倾斜的原因有哪些?

我个人认为导致数据倾斜的本质原因是数据量过大,导致程序不能按预期结果输出。一般原因有如下几个:

  • key 分布不均匀

  • sql 不合理

  • 建表时类型有问题

3.导致数据倾斜的算子有哪些?

count、disticnt、group by 、join等。

4.常见的解决方案有哪些?


本文转载自: https://blog.csdn.net/high2011/article/details/129405101
版权归原作者 high2011 所有, 如有侵权,请联系我们删除。

“【Hive 基础】-- 数据倾斜”的评论:

还没有评论