overfit同步小助手

2023-08-13 06:04:22

Hive-数据倾斜

在计算各省份的GMV时，有可能会发生数据倾斜，解决办法如下：

分组聚合 1. 预聚合思想 map-side（预聚合在map里面）2. skew-groupby（多个reduce阶段进行汇总）：先对倾斜的key加上随机数，均匀分发到不同的reduce，进行一次聚合，然后去掉随机数，再发到一个reduce进行聚合。
表与表的关联 1. map-join：大表JOIN小表2. skew-join：如果检测到有key比较多的，那么单独开启一个mapjoin去计算，其他正常的使用common join3. 分桶join：大表JOIN大表
如何判断是key发生数据倾斜? 1. limit2. table_sample 抽样函数

标签： hive hadoop 数据仓库

本文转载自: https://blog.csdn.net/qq_40382400/article/details/132049287
版权归原作者 青云游子 所有，如有侵权，请联系我们删除。

发表评论

登录后发布评论

“Hive-数据倾斜”的评论:

还没有评论

关于作者

overfit同步小助手

文章同步

相关阅读

网络安全法-网络运行安全

使用selenium/drissionpage时如何阻止chrome自动跳转http到https

docker desktop 里部署的Open WebUI 管理员密码忘记了的处理方法

在ubuntu20.04中搭建onsite比赛运行环境

利用开源的低代码表单设计器FcDesigner高效管理和渲染复杂表单结构

Kafka学习笔记

【前端】浏览器输入url到页面呈现发生了什么？

文章导航