大数据基础复习题整理

第一章

以下关于云计算、大数据和物联网之间的关系，论述错误的是

A. 物联网可以借助于大数据实现海量数据的分析
B. 物联网可以借助于云计算实现海量数据的存储
C. 云计算、大数据和物联网三者紧密相关，相辅相成
D. 云计算侧重于数据分析

正确答案：D

第三次信息化浪潮的标志是哪些技术的兴起?

A. 个人计算机
B. 物联网
C. 云计算
D. 大数据

正确答案：B，C，D。

第一次浪潮：个人计算机

第二次浪潮：互联网

第三次浪潮：物联网、大数据、云计算

大数据具有哪些特点?

A. 数据的“大量化”
B. 数据的“快速化”
C. 数据的“多样化”
D. 数据的“价值密度高”

正确答案：A，B，C

大数据的价值密度是很低的。可能一个记录了一整天道路交通状况的监控视频，只有1s的事故视频是有价值的。

下面哪些特征不是大数据所具有的

A. 使用抽样数据而不是全体样本
B. 结构化数据的规模远远超过非结构化的数据的规模
C. 追求的是数据计算的效率而不是精确性
D. 大数据分析追求事物之间的因果关系而不是相关性

正确答案：A，B，D

对于A：这并非大数据的特征。大数据通常涉及 全体样本 的分析，而不仅仅是抽样。

对于B：实际上， 非结构化数据（如文本、图片、视频等）在大数据中占据了很大一部分 。

对于C：大数据的分析通常确实更注重效率而非精确性，但这并不是说精确性不重要。这个选项可以说部分反映了大数据的特征，但不完全准确。

对于D：大数据分析 更多地关注的是发现数据之间的相关性 ，而不是因果关系。确定因果关系通常需要更为严格和控制得好的实验设计。

第二章

关于Kafka中的生产者和消费者，以下描述错误的是

A. 生产者可以发布数据到指定的主题,并可以指定消息写入哪个分区
B. 消费者可以订阅一个或多个主题
C. 在同一个消费者组中,每个消费者消费相同的分区的消息
D. 属于不同消费者组的消费者可以消费同一个分区的消息。

正确答案：C

关于kafka中的概念，以下描述正确的是

A. 事件是Kafka通信的基本单位
B. 批次是一组属于不同主题和分区的消息的集合
C. 同一类消息可被抽象归纳为一个主题
D. 每个主题包含一个分区

正确答案：C

以下描述错误的是

A. 一个Source可以连接多个channel
B. 多个Source可以写入同一个Channel
C. 多个Sink可以从同一个Channel中读取数据
D. 一个Sink可以从多个channel中读取数据

正确答案：D

ETL操作不包括

A. 提取
B. 转换
C. 加载
D. 计算

正确答案：D

关于Flume中的事务，以下描述正确的是

A. 每个Flume事务中包含一个事件
B. 当事务中的一个事件读/写成功后,事务就可以被提交
C. Channel处理器负责Source的事务处理。
D. 每个Flume事务中包含一个或多个事件

正确答案：C，D

第三章

分布式文件系统指的是什么?

A. 把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群
B. 用于在Hadoop与传统数据库之间进行数据传递
C. 一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
D. 一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据

正确答案：A

对于文件系统而言，形容其的主语必是文件。分布式文件系统简称为DFS。

下列哪一项不属于HDFS采用抽象的块概念带来的好处?

A. 简化系统设计
B. 支持大规模文件存储
C. 强大的跨平台兼容性
D. 适合数据备份

正确答案：C

兼容性并不是采用抽象块概念就可以提升的。HDFS必须在Hadoop相关平台运行。

下列关于HDFS的描述,哪个不正确?

A. HDFS还采用了相应的数据存放、数据读取和数据复制策略,来提升系统整体读写响应性能
B. HDFS采用了主从(Master/Slave)结构模型
C. HDFS采用了冗余数据存储,增强了数据可靠性
D. HDFS采用块的概念,使得系统的设计变得更加复杂

正确答案：D

采用了抽象块概念是可以简化系统设计的。

HDFS具有较高的容错性,设计了哪些相应的机制检测数据错误和进行自动恢复?

A. 数据源太大
B. 数据节点出错
C. 数据出错
D. 名称节点出错

正确答案：B，C，D

关于不同类型节点功能描述正确的是：

A. 名称节点负责管理文件系统的命名空间及客户端对文件的访问
B. 数据节点是文件系统中真正存储数据的地方
C. 名称节点负责处理文件系统客户端的读写请求
D. 每个数据节点会周期性地向第二名称节点发送心跳信息

正确答案：A，B

对于C： 数据节点 负责处理文件系统客户端的读写请求

对于D：每个数据节点会周期性地向 名称节点 发送心跳信息

第四章

以下对各类数据库的理解错误的是

A. 键值数据库的键和值都可以是任意类型的数据,比如整型和字符型等
B. HBase数据库是列族数据库,可扩展性强,支持事务一致性
C. 文档数据库旨在将半结构化数据存储为文档，通常用XML、JSON等文档格式来封装和编码数据。
D. 图数据库应用图形理论存储实体之间的关系信息，包括顶点以及连接顶点的边

正确答案：B

列族数据库 并不支持事务一致性 ，只是非常适合于处理大规模数据集。

NoSQL数据库的三大理论基石不包括

A. BASE
B. CAP
C. ACID
D. 最终一致性

正确答案：C

下列对HBase数据模型的描述错误的是

A. HBase是一个稀疏、多维度、排序的映射表，这张表的索引是行键、列族、列限定符和时间戳
B. 每个HBase表都由若干行组成，每个行由行键（row key）来标识
C. HBase列族支持动态扩展，可以很轻松地添加一个列族或列
D. HBase中执行更新操作时，会删除数据旧的版本，并生成一个新的版本

正确答案：D

HBase中执行更新操作的时候，不会删除旧的版本，反而将其保留

CAP是指

A. 分区容忍性
B. 可用性
C. 持久性
D. 一致性

正确答案：A，B，D

C: Consistency 一致性
A: Availability 可用性(指的是快速获取数据)
P: Tolerance of network Partition 分区容忍性(分布式)

访问HBase表中的行,有哪些方式

A. 通过单个行健访问
B. 通过一个行健的区间来访问
C. 通过某列的值区间
D. 全表扫描

正确答案：A，B，D

在HBase中，无法直接通过某列的值区间来访问表中的行，主要是因为HBase的数据模型和索引方式。理解这一点需要考虑HBase的核心设计特性：

基于行键的存储和访问：HBase是一个基于列族的NoSQL数据库，它的数据存储和访问主要是基于行键（Row Key）。行键在HBase中是主要的索引方式。数据库在物理存储上是按照行键的字典序排序的，这允许快速的行键查找和基于行键范围的扫描。

列族和列的索引方式：虽然HBase按列族存储数据，但它并没有为列族或列中的数据提供二级索引。这意味着，除了行键之外，HBase无法直接利用列的值来快速定位和访问数据。如果要通过某列的值来查找数据，就需要扫描整个表，这在大数据量下效率极低。

面向扫描的设计：HBase被设计为支持大规模数据的快速读写，尤其是针对基于行键的访问和扫描。它并不适合需要频繁通过非行键列值进行查询的场景。

因此，如果你需要通过某列的值区间来访问HBase表中的行，你可能需要考虑以下方案：

辅助索引：使用外部系统来维护列值到行键的映射，例如使用Apache Solr或Elasticsearch来实现。

行键设计：在设计行键时，将常用查询列的值包含进行键中，以便能通过行键范围扫描来达到类似效果。

全表扫描：如果数据量较小，可以考虑全表扫描，但这在大数据环境下通常是不可接受的。

下列对HBase的理解正确的是

A. HBase是一种关系型数据库,现成功应用于互联网服务领域
B. HBase多用于存储非结构化和半结构化的松散数据
C. HBase是一个行式分布式数据库,是Hadoop生态系统中的一个组件
D. HBase是针对谷歌BigTable的开源实现

正确答案：B，D

HBase是一个列族数据库，多用于存储非结构化和半结构化的松散数据，是针对谷歌BigTable的开源实现。

第五章

下列关于Map和Reduce函数的描述,哪个是错误的?

A. Map将小数据集进一步解析成一批对,输入Map函数中进行处理
B. Map每一个输入的会输出一批。是计算的中间结果
C. Reduce输入的中间结果中的List(v 2 )表示是一批属于不同k 2 的value
D. Reduce输入的中间结果中的List(v 2 )表示是一批属于同一个k 2 的value

正确答案：C

关于MapReduce1.0的体系结构的描述,下列说法错误的是?

A. Task 分为Map Task 和Reduce Task 两种,分别由JobTracker和TaskTracker 启动
B. slot 分为Map slot 和Reduce slot 两种,分别供MapTask 和Reduce Task 使用
C. TaskTracker 使用“slot”等量划分本节点上的资源量(CPU、内存等)
D. TaskTracker 会周期性接收JobTracker 发送过来的命令并执行相应的操作(如启动新任务、杀死任务等)

正确答案：A

下列哪项是Hadoop生态系统中Spark的功能?

A. 处理大规模数据的脚本语言
B. 工作流和协作服务引擎,协调Hadoop上运行的不同任务
C. 不支持DAG作业的计算框架
D. 基于内存的分布式并行编程框架,具有较高的实时性,并且较好支持迭代计算

正确答案：D

在Hadoop生态系统中,Kafka主要解决Hadoop 中存在哪些的问题?

A. Hadoop生态系统中各个组件和其他产品之间缺乏统一的、高效的数据交换中介
B. 不同的MapReduce任务之间存在重复操作,降低了效率
C. 延迟高,而且不适合执行迭代计算
D. 抽象层次低,需要手工编写大量代码

正确答案：A

关于HDFS Federation 的设计的描述,哪个是错误的?

A. 属于不同命名空间的块可以构成同一个“块池”
B. HDFS Federation中,所有名称节点会共享底层的数据节点存储资源,数据节点向所有名称节点汇报
C. 设计了多个相互独立的名称节点
D. HDFS的命名服务能够水平扩展

正确答案：A

每一个块池对应着其唯一的命名空间

下列关于MapReduce1.0的描述,错误的是?

A. JobTracker“大包大揽”导致任务过重
B. 不存在单点故障
C. 容易出现内存溢出(分配资源只考虑MapReduce任务数,不考虑CPU、内存)
D. 资源划分不合理(强制划分为slot ,包括Map slot和Reduce slot)

正确答案：B

下列关于MapReduce的体系结构的描述,说法正确的有?

A. 用户编写的MapReduce程序通过Client提交到JobTracker端
B. JobTracker负责资源监控和作业调度
C. TaskTracker监控所有TaskTracker与Job的健康状况
D. TaskTracker 使用“slot”等量划分本节点上的资源量(CPU、内存等)

正确答案：A，B，D

对于C： JobTracker 负责资源监控和作业调度。

下列说法正确的是?

A. MapReduce体系结构主要由四个部分组成,分别是:Client、JobTracker、TaskTracker以及Task
B. Task 分为Map Task 和Reduce Task 两种,均由TaskTracker 启动
C. 在MapReduce工作流程中,所有的数据交换都是通过MapReduce框架自身去实现的
D. 在MapReduce工作流程中,用户不能显式地从一台机器向另一台机器发送消息

正确答案：A，B，C，D

标签：大数据

本文转载自: https://blog.csdn.net/qq_62352333/article/details/135625253
版权归原作者 non_hana 所有，如有侵权，请联系我们删除。

大数据基础复习题整理

第一章

以下关于云计算、大数据和物联网之间的关系，论述错误的是

第三次信息化浪潮的标志是哪些技术的兴起?

大数据具有哪些特点?

下面哪些特征不是大数据所具有的

第二章

关于Kafka中的生产者和消费者，以下描述错误的是

关于kafka中的概念，以下描述正确的是

以下描述错误的是

ETL操作不包括

关于Flume中的事务，以下描述正确的是

第三章

分布式文件系统指的是什么?

下列哪一项不属于HDFS采用抽象的块概念带来的好处?

下列关于HDFS的描述,哪个不正确?

HDFS具有较高的容错性,设计了哪些相应的机制检测数据错误和进行自动恢复?

关于不同类型节点功能描述正确的是：

第四章

以下对各类数据库的理解错误的是

NoSQL数据库的三大理论基石不包括

下列对HBase数据模型的描述错误的是

CAP是指

访问HBase表中的行,有哪些方式

下列对HBase的理解正确的是

第五章

下列关于Map和Reduce函数的描述,哪个是错误的?

关于MapReduce1.0的体系结构的描述,下列说法错误的是?

下列哪项是Hadoop生态系统中Spark的功能?

在Hadoop生态系统中,Kafka主要解决Hadoop 中存在哪些的问题?

关于HDFS Federation 的设计的描述,哪个是错误的?

下列关于MapReduce1.0的描述,错误的是?

下列关于MapReduce的体系结构的描述,说法正确的有?

下列说法正确的是?

发表评论

“大数据基础复习题整理”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航