大数据开发（Hive面试真题）

一、Hive基础概念与区别

1、简要描述一下Hive表与数据库表之间有哪些区别？

存储：Hive表通常存储再分布式文件系统中，如HDFS；数据块表存储再关系型数据库管理系统（RDBMS）中。
查询语言：Hive使用类SQL语言进行数据查询、分析和处理，而数据库表使用结构化查询语言（SQL）。
索引：数据库表经常需要在数据中创建索引以提高性能，而Hive表默认不支持索引。
数据模型：数据库表通常以规范化形式设计，而Hive更适合用来处理扁平的、临时的或者半结构化数据。

2、请解释一下Hive的优点和缺点。

Hive是一种基于Hadoop的数据仓库工具，它提供了SQL界面和查询语言来查询和分析存储在Hadoop上的大规模结构化数据。以下是Hive的优点和缺点：

优点：

简化了复杂MapReduce任务：对于熟悉SQL而不是编写MapReduce代码的用户来说，可以更容易地使用SQL语法进行大规模数据分析。
支持高度可扩展性：可以运行在一个集群上，并能够以并行方式执行查询，在海量数据情况下保持良好地性能。

缺点：

延迟较高：相对于直接使用Hadoop的原生API，Hive的查询通常具有较高的延迟。这是由于转换SQL查询语句为底层MapReduce任务所带来的额外开销。
不适合实时处理：Hive更适用于批处理任务而不是实时数据处理，因为它不支持动态数据更新和低延迟查询。
限制：在某些情况下，复杂的查询或特殊要求可能无法通过Hive来满足。

3、Hive中Sort By，Order By，Cluster By，Distribute By分别是什么意思？

在Hive中，Sort By、Order By、Cluster By和Distribute By是用于对表进行排序和分区的关键字。

Sort By：Sort By用于在查询结果中对列进行排序。它会按照指定的列对查询结果进行排序，默认为升序排序，也可以通过DESC关键词进行降序排序。
Order By：Order By也用于对查询结果进行排序，但不同于Sort By，Order By会在最终的查询结果中对所有的行进行全局排序。这意味着Order By会将整个结果集加载到内存中进行排序，适用于小规模数据集。
Cluster By：Cluster By用于将表的数据按照指定的列进行分区存储。它类似于数据库中的分区表概念，可以提高查询性能。使用Cluster By时，Hive会根据指定的列值进行数据分区，并将相同的值的行存储在同一个分区中。
Distribute By：Distribute By用于将表的数据按照指定的列进行分发。它用于控制数据在不同的Reducer任务中的分布情况。Distribute By确保具有相同分发列值的行都被发送到同一个Reducer任务中，但并不保证在Reducer任务内部的排序。

4、Hive中row_number，rank和dense rank窗口函数的区别？

在Hive中，row_number、rank和dense rank都是窗口函数，用于在查询结果中对数据进行排序和分组。

row_number函数：它为每一行分配一个唯一的整数值，这个值根据窗口排序规则进行排序。即使两个行值相同，它们的row_number值也会不同。例如，如果有5行数据，排序后的结果分别为1、2、3、4、5。
rank函数：它为每一行分配一个排名值，根据窗口排序规则进行排序。如果两个行的值相同，它们的rank值也会相同，而下一个行将跳过对应数量的排名。例如，如果有5行数据，排序后的结果分别为1、2、2、4、5。
dense rank函数：它为每一行分配一个紧凑的排名值，根据窗口排序规则进行排序。即使两个行的值相同，它们的dense rank值也会不同，而下一个行将始终增加1。例如，如果有5行数据，排序后的结果分别为1、2、2、3、4。

5、Hive内部表和外部表区别？

Hive内部表和外部表的区别在于数据的存储和管理方式。

内部表（Internal Table）：内部表是Hive默认创建的表，它的数据存储在Hive的数据仓库中的默认路径下。Hive负责管理内部表的数据和元数据，包括数据的加载、删除、备份等操作。当删除内部表时，Hive会删除该表的元数据和数据。内部表适用于Hive独立管理数据的场景。
外部表（External Table）：外部表是指在Hive中定义的表，但数据存储在Hive之外的位置，例如HDFS上的指定路径或者其它存储系统中。外部表的元数据由Hive负责管理，但数据本身由外部存储系统管理。当删除外部表时，Hive只删除元数据而不删除实际数据。外部表适用于需要与其它系统共享数据的场景，如与其它工具或框架进行数据交互。

总结：

内部表的数据由Hive管理，外部表的数据由外部存储系统管理。
删除内部表会同时删除元数据和数据，而删除外部表只删除元数据。
内部表适用于Hive独立管理数据的场景，而外部表适用于需要与其它系统共享数据的场景。

6、Hive是什么？跟数据仓库区别？

Hive是一种基于Hadoop的数据仓库基础架构，它提供了一种类SQL查询语言（HQL）来查询和分析大规模的数据集。Hive将查询转化为MapReduce任务或Spark任务来执行，以实现在Hadoop集群上进行高效的数据处理。
数据仓库（Data Warehouse）是一个用于存储和管理大量结构化和半结构化数据的系统，用于支持企业的决策支持和数据分析工作。数据仓库通常采用ETL（抽取、转换和加载）过程将源系统中的数据提取、转换和加载到数据仓库中，以便进行复杂的分析和查询。
Hive是一个在Hadoop上构建的数据仓库解决方案，它适用HiveQL（类SQL）查询语言来操作和分析大规模的数据集。它将查询转化为底层的MapReduce或Spark任务来执行，因此可以在Hadoop集群上进行高效的数据分析。与传统的数据仓库相比，Hive提供了更灵活、可扩展和经济高效的方式来处理大数据。

二、Hive架构与执行流程

1、Hive架构？

Hive是一个构建在Hadoop之上的数据仓库基础架构，它提供了基于SQL的查询和分析功能。Hive允许用户使用类似于SQL的查询语言（称为HQL）来处理存储在Hadoop集群上的大规模数据。

Hive的架构主要包括以下几个组件：

Hive客户端：Hive提供了一个命令行界面和一个Web界面，使用户可以通过这些界面与Hive进行交互。
Hive驱动程序：Hive驱动程序负责接收用户提交的HQL查询，并将其转化为一系列的Hadoop MapReduce任务。
元数据存储：Hive的元数据存储在关系型数据库中，用于存储表、分区、列、表的schema信息等。
解析器：Hive的解析器将用户提交的HQL查询解析成语法树。
查询优化器：Hive的查询优化器负责对解析后的查询进行优化，包括表达式推导、谓词下推等。
查询执行引擎：Hive的查询执行引擎将优化后的查询转化为一系列的MapReduce任务，这些任务将在Hadoop集群上执行。
Hive元数据仓库：Hive的元数据仓库用于存储表、分区、列、表的schema信息等，它可以与其它工具（如Apache Atlas）进行集成，以提供更丰富的元数据管理功能。

2、Hive的执行计划是什么样子？

Hive的执行计划是一个逻辑查询计划，描述了Hive查询的执行步骤和顺序。它由Hive查询优化器生成，并用于指导查询的执行。

Hive执行计划通常包含以下几个关键组件：

表扫描：指定了需要扫描的表和扫描方式，包括全表扫描或者使用索引进行扫描。
过滤条件：指定了查询的过滤条件，用于减少需要扫描的数据量。
连接操作：如果查询涉及到多个表的连接操作，执行计划会指定连接的方式，例如join操作使用的连接算法（如map-join或者sort-merge join）。
聚合操作：如果查询包含聚合函数（如SUM、COUNT等），执行计划会指定如何进行聚合操作，例如使用hash聚合或者排序聚合。
排序操作：如果查询需要按照特定的排序规则输出结果，执行计划会指定如何进行排序操作，例如使用排序算法（如快速排序或者合并排序）。
数据传输：执行计划会指定数据在不同节点之间的传输方式，例如使用shuffle操作将数据进行洗牌后再进行下一步计算。

3、Hive的执行流程？

法树（AST）的形式。
2. 语义分析器（Semantic Analyzer）：Hive的语义分析器会对AST进行语义分析，包括验证表和列的存在性、检查数据类型、解析表达式等==。
3. 查询优化器（Query Optimizer）：在语义分析完成后，Hive会对查询进行优化，包括重写查询计划、选择合适的连接方式、重新排序操作等，以提高查询性能。
4. 查询计划生成器（Query Plan Generator）：优化后的查询计划将被传递给查询计划生成器，生成逻辑查询计划。
5. 物理计划生成器（Physical Plan Generator）：逻辑查询计划会被传递给物理计划生成器，生成物理查询计划，包括选择合适的物理操作（如MapReduce、Tez等）和任务的划分。
6. 执行器（Executor）：生成的物理查询计划将被执行器执行，根据计划中的操作类型，将任务提交给相应的计算引擎（如MapReduce、Tez等）进行执行。
7. 结果存储：执行完成后，查询结果将被存储在指定的位置，可以是本地文件系统、HDFS等。

4、Hive SQL转化为MR的过程？

解析Hive SQL语句：首先，Hive会解析输入的Hive SQL查询语句，识别出查询的表、列以及其它相关的元数据信息。
查询优化和逻辑计划生成：Hive会将解析后的查询语句进行查询优化，根据表的统计信息和用户定义的参数选择最佳的执行计划。然后，Hive会生成逻辑查询计划，该计划描述了查询的逻辑执行流程。
逻辑计划到物理计划的转化：在这一步骤中，Hive将逻辑查询计划转换为物理查询计划，该计划描述了如何在MapReduce框架下执行查询。转换的过程通常包括将逻辑操作符映射到对应的MapReduce任务（如Map、Reduce、Join等），以及确定数据的分区和排序策略。
生成MapReduce作业：根据转换后的物理查询计划，Hive会生成一系列的MapReduce作业。每个作业会包括一个或多个Map任务和一个Reduce任务，它们负责执行查询并生成结果。
执行MapReduce作业：生成的MapReduce作业将被提交给Hadoop集群进行执行。在执行期间，MapReduce框架会负责将输入数据按照指定的分区方式划分到不同的Map任务中，并在Map和Reduce任务之间进行数据的传输和处理。
输出结果：一旦所有的MapReduce作业执行完成，Hive会从最后一个Reduce任务中获取最终的查询结果，并将其返回给用户或保存到指定的输出表中。

5、Hive的存储引擎和计算引擎？

Hive的存储引擎是基于Hadoop的HDFS，它将数据以文件的形式存储在分布式存储系统中。Hive的计算引擎是基于MapReduce，通过将查询转换为MapReduce作业来执行数据计划和分析操作。

三、Hive性能优化与操作技巧

1、如何调优Hive查询性能？

数据压缩：使用压缩格式（如Snappy、LZO）压缩数据文件以节省存储空间，并减少I/O读写时间。
分区和分桶：通过在数据上进行分区和分桶操作，可以仅仅查询所需的数据子集，提高查询效率。
数据倾斜处理：当数据倾斜导致某些任务运行时间过长时，可以使用随机抽样，增加Hive连接器或预先聚合等方法来解决。
适当调整并行度：根据集群资源调整Hive任务的并行度以利用更多计算资源，提高查询性能。
使用表缓存：对于小型维度或经常使用的查询结果可以将其缓存在内存中，避免反复加载和计算。

2、如何避免Hive中Join操作引起全表扫描？

可以采用以下几种策略：

使用合适的Join算法：根据数据的特点选择合适的Join算法，例如使用Map Join、Sort-Merge Join等。
调整表的存储格式：使用支持索引和列式存储等高效查询的存储格式，如Parquet或ORC。
对Join操作进行拆分：将大表进行水平分片或者预分区（Pre-partitioned）处理，以达到局部性原则，并使用Bucketing对小表数据进行哈希划分。
合理设置Join关联条件：确保关联条件可以做到快速过滤。

3、Hive数据倾斜以及解决方案？

Hive数据倾斜是指在Hive查询中，某些分区或数据块的数据量过大，导致查询性能下降的情况。这种情况可能会使查询变慢，甚至导致作业失败。以下是一些常见的解决方案：

数据倾斜的原因通常是由于某些键的数据量过大，可以通过将数据进行重新分区或者使用更细粒度的分区来解决。例如，对于常见的join操作，可以将大表进行拆分，将大表的数据均匀分布在多个小表中。
可以使用随机数和哈希函数等技术来解决数据倾斜。例如，可以使用随机数为每个分区生成一个随机数，并将其与分区键进行组合，从而使数据更加均匀地分布在不同的分区中。
可以使用倾斜表连接技术来解决数据倾斜。这种方法基于前缀或者哈希等方式对倾斜键进行拆分，然后将其连接到其它表中。
可以通过使用Bloom过滤器来减少数据倾斜的影响。Bloom过滤器可以帮助过滤掉不可能匹配的数据，减少查询的数据量。
可以使用动态分区或者分桶来解决数据倾斜。这种方法可以将数据分散到多个分区或者桶中，从而降低单个分区或者桶的数据量。
可以使用压缩算法来减少数据倾斜的影响。压缩算法可以在减少存储空间的同时，提高查询性能。

4、Hive如果不用参数调优，在map和reduce端应该做什么？

Map端：

增加map任务的数量：可以通过设置’mapred.map.tasks’参数来增加map任务的数量，从而提高并行度和整体处理速度。
压缩中间数据：可以使用Hive的压缩功能，如设置’hive.exec.compress.intermediate’参数为true，将中间数据进行压缩，减少磁盘I/O开销。

Reduce端：

增加reduce任务的数量：可以通过设置’mapred.reduce.tasks’参数来增加reduce任务的数量，从而提高并行度和整体处理速度。
合理设置shuffle阶段的内存大小：可以通过调整’hive.shuffle.memory.limit’参数来控制shuffle阶段的内存大小，避免内存溢出或过多的磁盘I/O操作。
使用Combiner函数：如果Reduce端的数据量较大，可以使用Combiner函数来进行部分聚合操作，减少传输给Reducer的数据量，提高性能。

四、Hive数据处理与查询

1、如何在Hive里删除一条记录？

在Hive中，直接删除单条记录是不支持的，因为Hive是为大规模数据批处理设计的，而不是为单条记录的操作设计的。但是，你可以通过以下方法间接地删除一条或多条记录：
使用INSERT OVERWRITE：
1、创建一个与原表结构相同的临时表。
2、将不想删除的记录插入到这个临时表。
3、使用INSERT OVERWRITE语句将临时表的数据覆盖回原表。

使用分区：
如果你的表是分区的，并且你想删除的记录都在一个特定的分区中，那么你可以简单地删除整个分区。

2、举几个Hive开窗函数例子？什么要有开窗函数，和聚集函数区别？

开窗函数是一种在查询结果中进行窗口操作的函数，它可以在查询结果集中的每一行执行计算，并返回结果集中的一个窗口。以下是几个开窗函数的例子：

**ROW_NUMBER()**：返回结果集中每一行的唯一编号。
**RANK()**：返回结果集中每一行的排名。
**DENSE_RANK()**：返回结果集中每一行的稠密排名。
**LAG()**：返回结果集中当前行之前的指定行数的值。
**LEAD()**：返回结果集中当前行之后的指定行数的值。
**SUM()**：计算结果集中指定列的总和。开窗函数的作用是对结果集中的每一行进行计算，而不是对整个结果集进行计算，它可以用于实现分组、排序、排名等功能，以及计算每一行与其它行的关联值。与聚合函数不同，开窗函数不会对结果集进行分组或汇总。聚合函数用于计算整个结果集或每个分组的汇总值，而开窗函数用于在结果集中的每一行上执行计算。

3、Hive的文件存储格式都有哪些？

文本文件格式（TextFile）：以文本形式存储数据，每一行都是一个记录，字段之间使用分隔符进行分割。
序列文件格式（SequenceFile）：一种二进制文件格式，数据以键值对的形式存储，适用于大数据量的存储和读取。
列式存储格式（Columnar formats）：例如Parquet和ORC等，以列为单位存储数据，提供更高的压缩比和查询性能。
Avro格式：一种数据序列化系统，支持动态类型，适用于复杂数据结构的存储。
RCFile格式（Record Columnar File）：一种列式存储格式，将每个列的数据存储在单独的文件中，提供高效的读取和查询性能。
JSON格式（JsonFile）：以JSON格式存储数据，适用于半结构化数据的存储。
CSV格式：以逗号分割的文本文件格式，适用于简单的表格数据存储。

4、Hive的count的用法？

Hive中的count函数用于计算指定列或整个表中的行数。它的用法如下：

SELECT COUNT(*) FROM table_name;

计算指定列的非空值的个数：

SELECT COUNT(column_name) FROM table_name;

计算指定列的唯一值的个数：

SELECT COUNT(DISTINCT column_name) FROM table_name;

5、Hive得union和unionall的区别？

Hive中的UNION和UNION ALL都是用于合并多个查询结果集的操作，但它们之间有一些区别。

UNION会删除重复的行，而UNION ALL会保留所有行，包括重复的行。
UNION操作符会对两个查询结果的列进行匹配，要求它们的数据类型和顺序完全一致，而UNION ALL不会进行列匹配。
UNION操作符会对结果进行排序，以消除重复行，而UNION ALL不会进行排序，因此性能上可能会更快一些。
UNION操作符默认会去除NULL值，而UNION ALL会保留NULL值。因此，如果你需要合并多个结果集并消除重复行，你可以使用UNION操作符。而如果你想保留所有行，包括重复的行，可以使用UNION ALL操作符。

6、Hive的join操作原理，left join、right join、inner join、outer join的异同？

Inner Join（内连接）：它返回两个表中满足连接条件的记录。只有在两个表中都有匹配的记录时，才会返回结果。
Left Join（左连接）：它返回左表中所有记录以及与右边匹配的记录。如果右表中没有匹配的记录，则返回NULL。
Right Join（右连接）：它返回右表中所有记录以及与左表匹配的记录。如果左表中没有匹配的记录，则返回NULL。
Outer Join（外连接）：它返回左表和右表中的所有记录。如果两个表中没有匹配的记录，则返回NULL。

7、Hive的mapjoin？

Hive的mapjoin是一种优化技术，用于加快Hive查询的速度。它通过将小表加载到内存中，然后在Map阶段将大表的数据与小表的数据进行连接，从而减少了磁盘读写操作和网络传输开销。
具体来说，Hive的mapjoin分为两种类型：

Map端的mapjoin（Map-side Join）：当一个表的数据量足够小，可以将其全部加载到内存中时，Hive会将这个表的数据复制到所有的Map任务中，然后在Map任务中直接进行连接操作。这样可以避免Shuffle阶段的数据传输和磁盘I/O，大大提高了查询速度。
Bucket Map端的mapjoin：当两个表都被分桶时，Hive可以使用Bucket Map端的mapjoin。它将两个表的桶按照相同的桶号分发到同一个Map任务中，然后再Map任务中进行连接操作。这样可以减少Shuffle阶段的数据传输和磁盘I/O，提高查询效率。需要注意的是，使用mapjoin的前提是小表可以完全加载到内存中，否则可能会导致内存不足的问题。此外，mapjoin也只适用于等值连接（Equi-Join），不支持其它类型的连接操作。

8、Hive Shuffle的具体过程？

Hive的Shuffle过程是在Hive执行MapReduce任务时发生的数据重分区和排序过程。它是为了将具有相同键的数据项聚集再同一个Reducer任务中，以便进行数据的合并和计算。
具体的Hive Shuffle过程如下：

Map阶段：在Map阶段，输入数据会根据指定的分区键进行哈希分区，即根据分区键的哈希值将数据分配到对应的Reducer任务中。同时，Map阶段会对每个分区键进行局部排序，保证每个分区内的数据按照分区键的顺序排列。
Combiner阶段：如果在Hive查询中定义了Combiner函数，那么在Map阶段的输出结果会经过Combiner函数的合并操作。Combiner函数可以对相同分区键的数据进行合并，以减少数据传输量和提高性能。
Partitioner阶段：在Map阶段结束后，Hive会调用Partitioner函数对Map输出结果进行再次分区。Partitioner函数决定了数据项如何分布到不同的Reducer任务中。通常情况下，Partitioner函数会根据分区键的哈希值将数据项均匀地分配到不同的Reducer任务中。
Sort阶段：在Partitioner阶段之后，Hive会对每个Reducer任务的输入数据进行全局排序。这个排序操作保证了每个Reducer任务的输入数据按照分区键的顺序进行处理。
Reduce阶段：在Reduce阶段，每个Reducer任务会接收到属于自己分区的数据块，并进行最终的聚合和计算操作。Reducer任务会对输入数据进行迭代处理，输出最终的结果。

五、Hive函数与转换

1、Hive中行转列、列转行的函数有哪些？

行转列：

TRANSPOSE：将行数据转置为列数据。
COLLECT_SET：将行数据按照指定的列进行分组，并将每组中的某一列的值收集到一个数组中。

列转行：

EXPLODE：将一个数组或者一个Map类型的列拆分成多行，每行包含原列中的一个元素或者键值对。
STACK：将多个列按照指定的顺序进行堆叠，每个输入列生成一行输出。

2、Hive HQL：行转列、列转行？

Hive HQL中可以使用Pivot操作实现行转列和列转行的功能。
行转列（行数据转为列）：
在 Hive 中，可以使用 Pivot 操作将行数据转为列。Pivot 操作需要使用聚合函数和 CASE WHEN 语句来实现。
例如，假设我们有一个表格包含以下数据：

+----+------+-------+
| ID | Name | Value |
+----+------+-------+
| 1  | A    | 10    |
| 1  | B    | 20    |
| 2  | A    | 30    |
| 2  | B    | 40    |
+----+------+-------+

我们可以使用 Pivot 操作将上述数据按 ID 列进行行转列：

SELECT ID,
MAX(CASE WHEN Name = 'A' THEN Value END) AS Value_A,
MAX(CASE WHEN Name = 'B' THEN Value END) AS Value_B
FROM table_name
GROUP BY ID;

执行上述查询后，可以得到如下结果：

+----+---------+---------+
| ID | Value_A | Value_B |
+----+---------+---------+
| 1  | 10      | 20      |
| 2  | 30      | 40      |
+----+---------+---------+

列转行（列数据转为行）：
Hive 中可以使用 UNION ALL 操作将列数据转为行数据。
假设我们有一个表格包含以下数据：

+----+------+-------+
| ID | Name | Value |
+----+------+-------+
| 1  | A    | 10    |
| 1  | B    | 20    |
| 2  | A    | 30    |
| 2  | B    | 40    |
+----+------+-------+

我们可以使用 UNION ALL 操作将上述数据按 Name 列进行列转行：

SELECT ID, 'A' AS Name, Value FROM table_name WHERE Name = 'A'
UNION ALL
SELECT ID, 'B' AS Name, Value FROM table_name WHERE Name = 'B';

执行上述查询后，可以得到如下结果：

+----+------+-------+
| ID | Name | Value |
+----+------+-------+
| 1  | A    | 10    |
| 2  | A    | 30    |
| 1  | B    | 20    |
| 2  | B    | 40    |
+----+------+-------+

这样我们就可以将列数据转为行数据。.

3、UDF是怎么在Hive里执行的？

UDF是在Hive中执行的一种自定义函数。当在Hive中定义一个UDF后，它可以在Hive查询中使用，以对数据进行转换、计算或其它操作。

执行过程如下：

首先，开发人员需要使用Java或其它编程语言编写UDF的代码。UDF代码需要实现Hive UDF接口，并定义输入和输出参数的类型。
然后，将编写的UDF代码编译成可执行的JAR文件。
接下来，将JAR文件上传到Hive的集群环境中，并将其添加到Hive的类路径中。
在Hive中创建一个函数，将该数据与上传的JAR文件中的UDF代码关联起来。这可以通过使用Hive的CREATE FUNCTION语句来完成。
一旦函数创建完毕，就可以在Hive查询中调用该函数，并将其应用于数据。
当Hive查询中调用UDF时，Hive会根据函数的定义和输入参数类型，调用上传的JAR文件中的对应UDF代码。
UDF代码将执行相应的计算或转换操作，并返回结果给Hive查询。

六、Hive自定义函数与数据组织

1、Hive的三种自定义函数是什么？实现步骤与流程？它们之间的区别？作用是什么？

Hive的三种自定义函数包括UDF（User-Defined Function（用户定义函数））、UDAF（User-Defined Aggregate Function（用户定义聚合函数））和UDTF（User-Defined Table-Generating Function（用户定义表生成函数））。
UDF是最常见的自定义函数类型，用于对单个输入值进行处理并返回一个输出值。实现UDF的步骤包括编写Java或Python代码来定义函数逻辑，然后将代码打包为JAR文件，并将其添加到Hive的classpath中。UDF可以在Hive查询中使用，并通过SELECT或WHERE子句来调用。
UDAF用于对一组输入值进行聚合计算，返回一个聚合结果。实现UDAF的步骤与UDF类似，但需要额外定义一个聚合逻辑来处理多个输入值。UDAF可以在Hive查询中使用，并通过GROUP BY子句来进行分组操作。
UDTF用于生成一个或多个输出表，可以将其视为一种特殊的UDF。UDTF的实现步骤与UDF相似，但需要定义生成输出表的逻辑。UDTF可以在Hive查询中使用，并通过LATERAL VIEW关键字来调用。
UDF对单个输入值进行处理，返回一个输出值；UDAF对多个输入值进行聚合计算，返回一个聚合结果；UDTF生成一个或多个输出表。

2、Hive分区和分桶的区别？

Hive分区： Hive分区是基于数据的某个列（通常是日期、地理位置等）进行的逻辑划分。分区可以将数据按照指定的列值划分成多个目录或文件，使得查询时只需要扫描特定分区的数据，从而提高查询性能。分区可以在创建表时定义，也可以在已有的表进行动态分区操作。分区的主要目的是减少查询时需要扫描的数据量，提高查询效率。
Hive分桶： Hive分桶是将数据分散存储到多个文件中，每个文件称为一个桶。分桶是通过对某些列的哈希函数计算得到的，可以在创建表时定义分桶数和分桶列。分桶的目的是将数据均匀地分布在多个桶中，使得查询时只需要扫描特定桶地数据，进一步提高查询性能。与分区不同的是，分桶不是将数据按照某些列值进行划分，而是通过哈希函数进行随机分配。

总结：

Hive分区是按照某个列的值进行划分，目的是减少查询时需要扫描的数据量。
Hive分桶是通过哈希函数进行数据的随机分配，目的是将数据均匀地分散在多个桶中。
分区适用于根据某个列进行过滤查询的场景。
分桶适用于需要随机访问的场景，可以提高数据的读取效率。

标签：大数据 hive 面试

本文转载自: https://blog.csdn.net/key_honghao/article/details/136918414
版权归原作者 Key-Key 所有，如有侵权，请联系我们删除。

大数据开发（Hive面试真题）

大数据开发（Hive面试真题）

一、Hive基础概念与区别

1、简要描述一下Hive表与数据库表之间有哪些区别？

2、请解释一下Hive的优点和缺点。

3、Hive中Sort By，Order By，Cluster By，Distribute By分别是什么意思？

4、Hive中row_number，rank和dense rank窗口函数的区别？

5、Hive内部表和外部表区别？

6、Hive是什么？跟数据仓库区别？

二、Hive架构与执行流程

1、Hive架构？

2、Hive的执行计划是什么样子？

3、Hive的执行流程？

4、Hive SQL转化为MR的过程？

5、Hive的存储引擎和计算引擎？

三、Hive性能优化与操作技巧

1、如何调优Hive查询性能？

2、如何避免Hive中Join操作引起全表扫描？

3、Hive数据倾斜以及解决方案？

4、Hive如果不用参数调优，在map和reduce端应该做什么？

四、Hive数据处理与查询

1、如何在Hive里删除一条记录？

2、举几个Hive开窗函数例子？什么要有开窗函数，和聚集函数区别？

3、Hive的文件存储格式都有哪些？

4、Hive的count的用法？

5、Hive得union和unionall的区别？

6、Hive的join操作原理，left join、right join、inner join、outer join的异同？

7、Hive的mapjoin？

8、Hive Shuffle的具体过程？

五、Hive函数与转换

1、Hive中行转列、列转行的函数有哪些？

2、Hive HQL：行转列、列转行？

3、UDF是怎么在Hive里执行的？

六、Hive自定义函数与数据组织

1、Hive的三种自定义函数是什么？实现步骤与流程？它们之间的区别？作用是什么？

2、Hive分区和分桶的区别？

发表评论

“大数据开发（Hive面试真题）”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航