2022 大一大二基础hive考试题

一. 选择题
1.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤中进行的？（ C ）
A、频繁模式挖掘
B、分类和预测
C、数据预处理
D、数据流挖掘

2.为数据的总体分布建模，把多维空间划分成组属于数据挖掘的哪一类任务？（ B ）
A、探索性数据分析
B、建模描述
C、预测建模
D、寻找模式和规则

mapreduce与hbase的关系，哪些描述是正确的？（ B,C ） A、两者不可或缺，mapreduce是hbase可以正常运行的保证 B、两者不是强关联关系，没有mapreduce，hbase可以正常运行 C、mapreduce可以直接访问hbase D、它们之间没有任何关系

4.下面关于hbase描述错误的是（ A ）
A、client访问hbase上的数据需要访问master
B、master仅维护表和region的元数据
C、hlog主要用于灾难恢复
D、client检索数据时，先检索memstore，找不到再检索storefile

关于hbase描述正确的是（ A ） A、hbase表中的每个列，都归属某个列族 B、列族和列是表的schema的一部分，必须在建表时指定 C、hbase在磁盘上按照列族存储数据 D、列族里的元素最好具有相同的读写方式，以提高性能

6.代码select ceil(2.34)的结果是哪一个：（ C ）
A、2.3
B、2
C、3
D、2.4

7.下面关于Hive内外表描述错误的是（ A ）
A、Hive内表的元数据和数据都由Hive自己管理
B、Hive会管理外表的元数据
C、当Hive内表的元数据发生变化时，内表的改动修改不会同步给元数据
D、对外部表的表结构和分区进行修改，需要修复

8.关于Hive中窗口函数下列描述正确的是（D）
A LAG用于统计窗口内往上第n行值，空不计入窗口中
B LEAD用于统计窗口内往下第n行值，空不计入窗口中
C FIRST_VALUE取分组排序后，截止到当前行的第一个值
D LAST_VALUE取分组不需要指定ORDER BY后，截止到当前行的最后一个值

9.下面哪个不是Spark RDD的特点（ C ）
A、可分区
B、可序列化
C、可修改
D、可持久化

10.Task运行在下来哪里个选项中Executor上的工作单元（ C ）
A、Driver program
B、spark master
C、worker node
D、Cluster manager

二.填空题
1.HIVE的本质是：将HQL转化为___MapReduce___程序。
2.Hive 处理的数据存储在___HDFS____上。
3.HIVE有三种复杂数据类型，它们分别是__array________、map_____和_______struct。
4.可以使用_ CAST_________操作进行显式数据类型转换。
5.可以使用__EXTERNAL___关键字创建一个外部表。
6.可以使用__LIMIT___关键字来限制返回的行数
7.用户自定义函数类别可分为以下三种：_____ UDF____、UDAF___和UDTF。
8.我们可以使用_EXPLAIN____关键字查看查询语句的执行计划。
9.除了MapReduce之外，HIVE支持的计算引擎还有__ *TEZ______________和spark。
10. HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是__________一次写入，多次读写*_________。

标签： hive hadoop 大数据

本文转载自: https://blog.csdn.net/weixin_54018910/article/details/127441980
版权归原作者 小哲不吃辣 所有，如有侵权，请联系我们删除。

2022 大一大二基础hive考试题

发表评论

“2022 大一大二基础hive考试题”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航