0


Hive on Tez 性能优化

   优化Hive on Tez查询永远不能以一种万能的方法来完成。查询的性能取决于数据的大小、文件类型、查询设计和查询模式。在性能测试期间,要评估和验证配置参数和任何SQL修改。建议在工作负载的性能测试期间一次进行一项更改,并且最好在生产环境中使用它们之前评估调整更改在您的开发和测试环境中的影响。

一、调优指南

  与MR或Spark等较旧的执行引擎相比,Hive on Tez查询往往执行得更慢。这通常是由不同执行引擎之间的开箱即用的调整行为的差异 引起的。此外,用户可能已经完成了对旧版分发的调整,这不会自动反映在 Hive on Tez 转换中。对于从HDP发行版升级的用户,此讨论还有助于查看和验证是否正确配置了属性以实现CDP中的性能。

二、确定问题步骤

以下步骤可帮助您确定可能会降低性能的重点领域:

1、核实和验证YARN 容量调度器的配置。由于错误配置的队列配置(用户可用资源的任意上限)可能会影响查询性能。验证用户限制因子、最小用户限制百分比和最大容量。(请参阅YARN-容量调度器博客以了解这些配置设直。)
2、查看Hive on Tez和Hive 的任何安全阀(Hive和 HiveServer2配置的非默认值)的相关性。删除任何遗留和过时的属性。
3、识别缓慢的区域,例如map任务、reduce 任务和 Join。
4、查看通用的 Tez 引擎和平台的可调整的属性。
5、查看 Map 任务并调整-根据需要增加/减少任务计数。
6、査看 Reduce 任务并调整-根据需要增加/减少任务计数。

7、查看任何与并发相关的问题--这里有两种并发问题,如下所示:

7.1队列内用户之间的并发。这可以使用 TARN 队列的用户限制因子进行调整(请参阅容量调度器博客中的详细信息)

7.2 hive on Tez 会话的预热容器之间的并发性,如下文详细讨论。

三、了解 Tez 中的并行化

    在更改任何配置之前,您必须了解Tez内部工作的机制。例如,这包括了解 Tez 如何确定正确的 Map 和Reduce数量。查看Tez架构设计以及有关初始任务并行性和自动减少并行性如何工作的详细信息将帮助您优化查询性能。

本文转载自: https://blog.csdn.net/m0_46237405/article/details/139041690
版权归原作者 知识星球 所有, 如有侵权,请联系我们删除。

“Hive on Tez 性能优化”的评论:

还没有评论