0


2022 大一大二基础hive考试题

一. 选择题
1.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤中进行的?( C )
A、频繁模式挖掘
B、分类和预测
C、数据预处理
D、数据流挖掘

2.为数据的总体分布建模,把多维空间划分成组属于数据挖掘的哪一类任务?( B )
A、探索性数据分析
B、建模描述
C、预测建模
D、寻找模式和规则

  1. mapreduce与hbase的关系,哪些描述是正确的?( B,C ) A、两者不可或缺,mapreduce是hbase可以正常运行的保证 B、两者不是强关联关系,没有mapreduce,hbase可以正常运行 C、mapreduce可以直接访问hbase D、它们之间没有任何关系

4.下面关于hbase描述错误的是( A )
A、client访问hbase上的数据需要访问master
B、master仅维护表和region的元数据
C、hlog主要用于灾难恢复
D、client检索数据时,先检索memstore,找不到再检索storefile

  1. 关于hbase描述正确的是( A ) A、hbase表中的每个列,都归属某个列族 B、列族和列是表的schema的一部分,必须在建表时指定 C、hbase在磁盘上按照列族存储数据 D、列族里的元素最好具有相同的读写方式,以提高性能

6.代码select ceil(2.34)的结果是哪一个:( C )
A、2.3
B、2
C、3
D、2.4

7.下面关于Hive内外表描述错误的是( A )
A、Hive内表的元数据和数据都由Hive自己管理
B、Hive会管理外表的元数据
C、当Hive内表的元数据发生变化时,内表的改动修改不会同步给元数据
D、对外部表的表结构和分区进行修改,需要修复

8.关于Hive中窗口函数下列描述正确的是(D)
A LAG用于统计窗口内往上第n行值,空不计入窗口中
B LEAD用于统计窗口内往下第n行值,空不计入窗口中
C FIRST_VALUE取分组排序后,截止到当前行的第一个值
D LAST_VALUE取分组不需要指定ORDER BY后,截止到当前行的最后一个值

9.下面哪个不是Spark RDD的特点( C )
A、可分区
B、可序列化
C、可修改
D、可持久化

10.Task运行在下来哪里个选项中Executor上的工作单元( C )
A、Driver program
B、spark master
C、worker node
D、Cluster manager

二.填空题
1.HIVE的本质是:将HQL转化为___MapReduce___程序。
2.Hive 处理的数据存储在___HDFS____上。
3.HIVE有三种复杂数据类型,它们分别是__array________、map_____和_______struct
4.可以使用
_ CAST_________操作进行显式数据类型转换。
5.可以使用__EXTERNAL___关键字创建一个外部表。
6.可以使用__LIMIT___关键字来限制返回的行数
7.用户自定义函数类别可分为以下三种:_____ UDF____、UDAF___和UDTF。
8.我们可以使用_EXPLAIN____关键字查看查询语句的执行计划。
9.除了MapReduce之外,HIVE支持的计算引擎还有__ *TEZ______________和spark
10. HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有 高容错、高可靠性、高可扩展性、高吞吐率 等特征,适合的读写任务是__________一次写入,多次读写*_________。

标签: hive hadoop 大数据

本文转载自: https://blog.csdn.net/weixin_54018910/article/details/127441980
版权归原作者 小哲不吃辣 所有, 如有侵权,请联系我们删除。

“2022 大一大二基础hive考试题”的评论:

还没有评论