0


大数据基础复习题整理

第一章

以下关于云计算、大数据和物联网之间的关系,论述错误的是

  • A. 物联网可以借助于大数据实现海量数据的分析
  • B. 物联网可以借助于云计算实现海量数据的存储
  • C. 云计算、大数据和物联网三者紧密相关,相辅相成
  • D. 云计算侧重于数据分析

正确答案:D

第三次信息化浪潮的标志是哪些技术的兴起?

  • A. 个人计算机
  • B. 物联网
  • C. 云计算
  • D. 大数据

正确答案:B,C,D。

第一次浪潮:个人计算机

第二次浪潮:互联网

第三次浪潮:物联网、大数据、云计算

大数据具有哪些特点?

  • A. 数据的“大量化”
  • B. 数据的“快速化”
  • C. 数据的“多样化”
  • D. 数据的“价值密度高”

正确答案:A,B,C

大数据的价值密度是很低的。可能一个记录了一整天道路交通状况的监控视频,只有1s的事故视频是有价值的。

下面哪些特征是大数据所具有的

  • A. 使用抽样数据而不是全体样本
  • B. 结构化数据的规模远远超过非结构化的数据的规模
  • C. 追求的是数据计算的效率而不是精确性
  • D. 大数据分析追求事物之间的因果关系而不是相关性

正确答案:A,B,D

对于A:这并非大数据的特征。大数据通常涉及 全体样本 的分析,而不仅仅是抽样。

对于B:实际上, 非结构化数据(如文本、图片、视频等)在大数据中占据了很大一部分

对于C:大数据的分析通常确实更注重效率而非精确性,但这并不是说精确性不重要。这个选项可以说部分反映了大数据的特征,但不完全准确。

对于D:大数据分析 更多地关注的是发现数据之间的相关性 ,而不是因果关系。确定因果关系通常需要更为严格和控制得好的实验设计。

第二章

关于Kafka中的生产者和消费者,以下描述错误的是

  • A. 生产者可以发布数据到指定的主题,并可以指定消息写入哪个分区
  • B. 消费者可以订阅一个或多个主题
  • C. 在同一个消费者组中,每个消费者消费相同的分区的消息
  • D. 属于不同消费者组的消费者可以消费同一个分区的消息。

正确答案:C

关于kafka中的概念,以下描述正确的是

  • A. 事件是Kafka通信的基本单位
  • B. 批次是一组属于不同主题和分区的消息的集合
  • C. 同一类消息可被抽象归纳为一个主题
  • D. 每个主题包含一个分区

正确答案:C

以下描述错误的是

  • A. 一个Source可以连接多个channel
  • B. 多个Source可以写入同一个Channel
  • C. 多个Sink可以从同一个Channel中读取数据
  • D. 一个Sink可以从多个channel中读取数据

正确答案:D

ETL操作不包括

  • A. 提取
  • B. 转换
  • C. 加载
  • D. 计算

正确答案:D

关于Flume中的事务,以下描述正确的是

  • A. 每个Flume事务中包含一个事件
  • B. 当事务中的一个事件读/写成功后,事务就可以被提交
  • C. Channel处理器负责Source的事务处理。
  • D. 每个Flume事务中包含一个或多个事件

正确答案:C,D

第三章

分布式文件系统指的是什么?

  • A. 把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群
  • B. 用于在Hadoop与传统数据库之间进行数据传递
  • C. 一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
  • D. 一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据

正确答案:A

对于文件系统而言,形容其的主语必是 文件 。分布式文件系统简称为DFS。

下列哪一项不属于HDFS采用抽象的块概念带来的好处?

  • A. 简化系统设计
  • B. 支持大规模文件存储
  • C. 强大的跨平台兼容性
  • D. 适合数据备份

正确答案:C

兼容性并不是采用抽象块概念就可以提升的。HDFS必须在Hadoop相关平台运行。

下列关于HDFS的描述,哪个不正确?

  • A. HDFS还采用了相应的数据存放、数据读取和数据复制策略,来提升系统整体读写响应性能
  • B. HDFS采用了主从(Master/Slave)结构模型
  • C. HDFS采用了冗余数据存储,增强了数据可靠性
  • D. HDFS采用块的概念,使得系统的设计变得更加复杂

正确答案:D

采用了抽象块概念是可以简化系统设计的。

HDFS具有较高的容错性,设计了哪些相应的机制检测数据错误和进行自动恢复?

  • A. 数据源太大
  • B. 数据节点出错
  • C. 数据出错
  • D. 名称节点出错

正确答案:B,C,D

关于不同类型节点功能描述正确的是:

  • A. 名称节点负责管理文件系统的命名空间及客户端对文件的访问
  • B. 数据节点是文件系统中真正存储数据的地方
  • C. 名称节点负责处理文件系统客户端的读写请求
  • D. 每个数据节点会周期性地向第二名称节点发送心跳信息

正确答案:A,B

对于C: 数据节点 负责处理文件系统客户端的读写请求

对于D:每个数据节点会周期性地向 名称节点 发送心跳信息

第四章

以下对各类数据库的理解错误的是

  • A. 键值数据库的键和值都可以是任意类型的数据,比如整型和字符型等
  • B. HBase数据库是列族数据库,可扩展性强,支持事务一致性
  • C. 文档数据库旨在将半结构化数据存储为文档,通常用XML、JSON等文档格式来封装和编码数据。
  • D. 图数据库应用图形理论存储实体之间的关系信息,包括顶点以及连接顶点的边

正确答案:B

列族数据库 并不支持事务一致性 ,只是非常适合于处理大规模数据集。

NoSQL数据库的三大理论基石不包括

  • A. BASE
  • B. CAP
  • C. ACID
  • D. 最终一致性

正确答案:C

下列对HBase数据模型的描述错误的是

  • A. HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳
  • B. 每个HBase表都由若干行组成,每个行由行键(row key)来标识
  • C. HBase列族支持动态扩展,可以很轻松地添加一个列族或列
  • D. HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本

正确答案:D

HBase中执行更新操作的时候,不会删除旧的版本,反而将其保留

CAP是指

  • A. 分区容忍性
  • B. 可用性
  • C. 持久性
  • D. 一致性

正确答案:A,B,D

C: Consistency 一致性
A: Availability 可用性(指的是快速获取数据)
P: Tolerance of network Partition 分区容忍性(分布式)

访问HBase表中的行,有哪些方式

  • A. 通过单个行健访问
  • B. 通过一个行健的区间来访问
  • C. 通过某列的值区间
  • D. 全表扫描

正确答案:A,B,D

在HBase中,无法直接通过某列的值区间来访问表中的行,主要是因为HBase的数据模型和索引方式。理解这一点需要考虑HBase的核心设计特性:

  1. 基于行键的存储和访问:HBase是一个基于列族的NoSQL数据库,它的数据存储和访问主要是基于行键(Row Key)。行键在HBase中是主要的索引方式。数据库在物理存储上是按照行键的字典序排序的,这允许快速的行键查找和基于行键范围的扫描。
  2. 列族和列的索引方式:虽然HBase按列族存储数据,但它并没有为列族或列中的数据提供二级索引。这意味着,除了行键之外,HBase无法直接利用列的值来快速定位和访问数据。如果要通过某列的值来查找数据,就需要扫描整个表,这在大数据量下效率极低。
  3. 面向扫描的设计:HBase被设计为支持大规模数据的快速读写,尤其是针对基于行键的访问和扫描。它并不适合需要频繁通过非行键列值进行查询的场景。

因此,如果你需要通过某列的值区间来访问HBase表中的行,你可能需要考虑以下方案:

  • 辅助索引:使用外部系统来维护列值到行键的映射,例如使用Apache Solr或Elasticsearch来实现。
  • 行键设计:在设计行键时,将常用查询列的值包含进行键中,以便能通过行键范围扫描来达到类似效果。
  • 全表扫描:如果数据量较小,可以考虑全表扫描,但这在大数据环境下通常是不可接受的。

下列对HBase的理解正确的是

  • A. HBase是一种关系型数据库,现成功应用于互联网服务领域
  • B. HBase多用于存储非结构化和半结构化的松散数据
  • C. HBase是一个行式分布式数据库,是Hadoop生态系统中的一个组件
  • D. HBase是针对谷歌BigTable的开源实现

正确答案:B,D

HBase是一个列族数据库,多用于存储非结构化和半结构化的松散数据,是针对谷歌BigTable的开源实现。

第五章

下列关于Map和Reduce函数的描述,哪个是错误的?

  • A. Map将小数据集进一步解析成一批对,输入Map函数中进行处理
  • B. Map每一个输入的会输出一批。是计算的中间结果
  • C. Reduce输入的中间结果中的List(v 2 )表示是一批属于不同k 2 的value
  • D. Reduce输入的中间结果中的List(v 2 )表示是一批属于同一个k 2 的value

正确答案:C

关于MapReduce1.0的体系结构的描述,下列说法错误的是?

  • A. Task 分为Map Task 和Reduce Task 两种,分别由JobTracker和TaskTracker 启动
  • B. slot 分为Map slot 和Reduce slot 两种,分别供MapTask 和Reduce Task 使用
  • C. TaskTracker 使用“slot”等量划分本节点上的资源量(CPU、内存等)
  • D. TaskTracker 会周期性接收JobTracker 发送过来的命令并执行相应的操作(如启动新任务、杀死任务等)

正确答案:A

下列哪项是Hadoop生态系统中Spark的功能?

  • A. 处理大规模数据的脚本语言
  • B. 工作流和协作服务引擎,协调Hadoop上运行的不同任务
  • C. 不支持DAG作业的计算框架
  • D. 基于内存的分布式并行编程框架,具有较高的实时性,并且较好支持迭代计算

正确答案:D

在Hadoop生态系统中,Kafka主要解决Hadoop 中存在哪些的问题?

  • A. Hadoop生态系统中各个组件和其他产品之间缺乏统一的、高效的数据交换中介
  • B. 不同的MapReduce任务之间存在重复操作,降低了效率
  • C. 延迟高,而且不适合执行迭代计算
  • D. 抽象层次低,需要手工编写大量代码

正确答案:A

关于HDFS Federation 的设计的描述,哪个是错误的?

  • A. 属于不同命名空间的块可以构成同一个“块池”
  • B. HDFS Federation中,所有名称节点会共享底层的数据节点存储资源,数据节点向所有名称节点汇报
  • C. 设计了多个相互独立的名称节点
  • D. HDFS的命名服务能够水平扩展

正确答案:A

每一个块池对应着其唯一的命名空间

下列关于MapReduce1.0的描述,错误的是?

  • A. JobTracker“大包大揽”导致任务过重
  • B. 不存在单点故障
  • C. 容易出现内存溢出(分配资源只考虑MapReduce任务数,不考虑CPU、内存)
  • D. 资源划分不合理(强制划分为slot ,包括Map slot和Reduce slot)

正确答案:B

下列关于MapReduce的体系结构的描述,说法正确的有?

  • A. 用户编写的MapReduce程序通过Client提交到JobTracker端
  • B. JobTracker负责资源监控和作业调度
  • C. TaskTracker监控所有TaskTracker与Job的健康状况
  • D. TaskTracker 使用“slot”等量划分本节点上的资源量(CPU、内存等)

正确答案:A,B,D

对于C: JobTracker 负责资源监控和作业调度。

下列说法正确的是?

  • A. MapReduce体系结构主要由四个部分组成,分别是:Client、JobTracker、TaskTracker以及Task
  • B. Task 分为Map Task 和Reduce Task 两种,均由TaskTracker 启动
  • C. 在MapReduce工作流程中,所有的数据交换都是通过MapReduce框架自身去实现的
  • D. 在MapReduce工作流程中,用户不能显式地从一台机器向另一台机器发送消息

正确答案:A,B,C,D

标签: 大数据

本文转载自: https://blog.csdn.net/qq_62352333/article/details/135625253
版权归原作者 non_hana 所有, 如有侵权,请联系我们删除。

“大数据基础复习题整理”的评论:

还没有评论