overfit同步小助手

2023-03-29 05:05:08

【Hive 基础】-- 数据倾斜

1.什么是数据倾斜？

由于数据分布不均匀，导致大量数据集中到一点，造成数据热点。常见现象：一个 hive sql 有100个 map/reducer task，有一个运行了 20分钟，其他99个 task 只运行了 1分钟。

2.产生数据倾斜的原因有哪些？

我个人认为导致数据倾斜的本质原因是数据量过大，导致程序不能按预期结果输出。一般原因有如下几个：

key 分布不均匀
sql 不合理
建表时类型有问题

3.导致数据倾斜的算子有哪些？

count、disticnt、group by 、join等。

4.常见的解决方案有哪些？

标签： hive hadoop 数据仓库

本文转载自: https://blog.csdn.net/high2011/article/details/129405101
版权归原作者 high2011 所有，如有侵权，请联系我们删除。

发表评论

登录后发布评论

“【Hive 基础】-- 数据倾斜”的评论:

还没有评论

关于作者

overfit同步小助手

文章同步

相关阅读

网络安全法-网络运行安全

使用selenium/drissionpage时如何阻止chrome自动跳转http到https

docker desktop 里部署的Open WebUI 管理员密码忘记了的处理方法

在ubuntu20.04中搭建onsite比赛运行环境

利用开源的低代码表单设计器FcDesigner高效管理和渲染复杂表单结构

Kafka学习笔记

【前端】浏览器输入url到页面呈现发生了什么？

文章导航