1.什么是数据倾斜?
由于数据分布不均匀,导致大量数据集中到一点,造成数据热点。常见现象:一个 hive sql 有100个 map/reducer task, 有一个运行了 20分钟,其他99个 task 只运行了 1分钟。
2.产生数据倾斜的原因有哪些?
我个人认为导致数据倾斜的本质原因是数据量过大,导致程序不能按预期结果输出。一般原因有如下几个:
key 分布不均匀
sql 不合理
建表时类型有问题
3.导致数据倾斜的算子有哪些?
count、disticnt、group by 、join等。
4.常见的解决方案有哪些?
版权归原作者 high2011 所有, 如有侵权,请联系我们删除。