hive之Map Join使用方法

介绍

    MAPJION会把小表全部加载到内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配，由于在map端是进行了join操作，省去了reduce运行的时间，算是hive中的一种优化。

如上图中的流程，首先Task A在客户端本地执行，负责扫描小表b的数据，将其转换成一个HashTable的数据结构，并写入本地的文件中，之后将该文件加载到DistributeCache中。

接下来的Task B任务是一个没有Reduce的MapReduce，启动MapTasks扫描大表a，在Map阶段，根据a的每一条记录去和DistributeCache中b表对应的HashTable关联，并直接输出结果，因为没有Reduce，所以有多少个Map Task，就有多少个结果文件。

mapjoin的使用方法

如果除一个表外，所有要连接的表都很小，则可以使用mapjoin进行关联。

SELECT /*+ MAPJOIN(b) */ a.key, a.value
FROM a JOIN b ON a.key = b.key

*前提b表是一张小表，具体小表有多小，由参数hive.mapjoin.smalltable.filesize来决定，默认值是25M。开启hive.auto.convert.join=true参数时，默认值是false，满足条件的话Hive在执行时候会自动转化为MapJoin，或使用hint提示 /+ mapjoin(table) /执行MapJoin。*

参数列表：

1、小表自动选择Mapjoin
set hive.auto.convert.join=true;
默认值：false。该参数为true时，Hive自动对左边的表统计量，若是小表就加入内存，即对小表使用Map join
2、小表阀值
set hive.mapjoin.smalltable.filesize=25000000;
默认值：25M
hive.smalltable.filesize (replaced by hive.mapjoin.smalltable.filesize in Hive 0.8.1)

不支持以下内容

Union Followed by a MapJoin
Lateral View Followed by a MapJoin
Reduce Sink (Group By/Join/Sort By/Cluster By/Distribute By) Followed by MapJoin
MapJoin Followed by Union
MapJoin Followed by Join
MapJoin Followed by MapJoin

结语

     本次的分享就到这里了，下一篇博客博主将带来**hive分析函数的使用方法**，敬请期待！**受益的朋友或对大数据技术感兴趣的伙伴记得点赞关注支持一波！**

标签： hive 大数据 sql

本文转载自: https://blog.csdn.net/qq_36249352/article/details/124042487
版权归原作者 IMezZ 所有，如有侵权，请联系我们删除。

hive之Map Join使用方法

介绍

mapjoin的使用方法

结语

发表评论

“hive之Map Join使用方法”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航