第一章
以下关于云计算、大数据和物联网之间的关系,论述错误的是
- A. 物联网可以借助于大数据实现海量数据的分析
- B. 物联网可以借助于云计算实现海量数据的存储
- C. 云计算、大数据和物联网三者紧密相关,相辅相成
- D. 云计算侧重于数据分析
正确答案:D
第三次信息化浪潮的标志是哪些技术的兴起?
- A. 个人计算机
- B. 物联网
- C. 云计算
- D. 大数据
正确答案:B,C,D。
第一次浪潮:个人计算机
第二次浪潮:互联网
第三次浪潮:物联网、大数据、云计算
大数据具有哪些特点?
- A. 数据的“大量化”
- B. 数据的“快速化”
- C. 数据的“多样化”
- D. 数据的“价值密度高”
正确答案:A,B,C
大数据的价值密度是很低的。可能一个记录了一整天道路交通状况的监控视频,只有1s的事故视频是有价值的。
下面哪些特征不是大数据所具有的
- A. 使用抽样数据而不是全体样本
- B. 结构化数据的规模远远超过非结构化的数据的规模
- C. 追求的是数据计算的效率而不是精确性
- D. 大数据分析追求事物之间的因果关系而不是相关性
正确答案:A,B,D
对于A:这并非大数据的特征。大数据通常涉及 全体样本 的分析,而不仅仅是抽样。
对于B:实际上, 非结构化数据(如文本、图片、视频等)在大数据中占据了很大一部分 。
对于C:大数据的分析通常确实更注重效率而非精确性,但这并不是说精确性不重要。这个选项可以说部分反映了大数据的特征,但不完全准确。
对于D:大数据分析 更多地关注的是发现数据之间的相关性 ,而不是因果关系。确定因果关系通常需要更为严格和控制得好的实验设计。
第二章
关于Kafka中的生产者和消费者,以下描述错误的是
- A. 生产者可以发布数据到指定的主题,并可以指定消息写入哪个分区
- B. 消费者可以订阅一个或多个主题
- C. 在同一个消费者组中,每个消费者消费相同的分区的消息
- D. 属于不同消费者组的消费者可以消费同一个分区的消息。
正确答案:C
关于kafka中的概念,以下描述正确的是
- A. 事件是Kafka通信的基本单位
- B. 批次是一组属于不同主题和分区的消息的集合
- C. 同一类消息可被抽象归纳为一个主题
- D. 每个主题包含一个分区
正确答案:C
以下描述错误的是
- A. 一个Source可以连接多个channel
- B. 多个Source可以写入同一个Channel
- C. 多个Sink可以从同一个Channel中读取数据
- D. 一个Sink可以从多个channel中读取数据
正确答案:D
ETL操作不包括
- A. 提取
- B. 转换
- C. 加载
- D. 计算
正确答案:D
关于Flume中的事务,以下描述正确的是
- A. 每个Flume事务中包含一个事件
- B. 当事务中的一个事件读/写成功后,事务就可以被提交
- C. Channel处理器负责Source的事务处理。
- D. 每个Flume事务中包含一个或多个事件
正确答案:C,D
第三章
分布式文件系统指的是什么?
- A. 把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群
- B. 用于在Hadoop与传统数据库之间进行数据传递
- C. 一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
- D. 一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据
正确答案:A
对于文件系统而言,形容其的主语必是 文件 。分布式文件系统简称为DFS。
下列哪一项不属于HDFS采用抽象的块概念带来的好处?
- A. 简化系统设计
- B. 支持大规模文件存储
- C. 强大的跨平台兼容性
- D. 适合数据备份
正确答案:C
兼容性并不是采用抽象块概念就可以提升的。HDFS必须在Hadoop相关平台运行。
下列关于HDFS的描述,哪个不正确?
- A. HDFS还采用了相应的数据存放、数据读取和数据复制策略,来提升系统整体读写响应性能
- B. HDFS采用了主从(Master/Slave)结构模型
- C. HDFS采用了冗余数据存储,增强了数据可靠性
- D. HDFS采用块的概念,使得系统的设计变得更加复杂
正确答案:D
采用了抽象块概念是可以简化系统设计的。
HDFS具有较高的容错性,设计了哪些相应的机制检测数据错误和进行自动恢复?
- A. 数据源太大
- B. 数据节点出错
- C. 数据出错
- D. 名称节点出错
正确答案:B,C,D
关于不同类型节点功能描述正确的是:
- A. 名称节点负责管理文件系统的命名空间及客户端对文件的访问
- B. 数据节点是文件系统中真正存储数据的地方
- C. 名称节点负责处理文件系统客户端的读写请求
- D. 每个数据节点会周期性地向第二名称节点发送心跳信息
正确答案:A,B
对于C: 数据节点 负责处理文件系统客户端的读写请求
对于D:每个数据节点会周期性地向 名称节点 发送心跳信息
第四章
以下对各类数据库的理解错误的是
- A. 键值数据库的键和值都可以是任意类型的数据,比如整型和字符型等
- B. HBase数据库是列族数据库,可扩展性强,支持事务一致性
- C. 文档数据库旨在将半结构化数据存储为文档,通常用XML、JSON等文档格式来封装和编码数据。
- D. 图数据库应用图形理论存储实体之间的关系信息,包括顶点以及连接顶点的边
正确答案:B
列族数据库 并不支持事务一致性 ,只是非常适合于处理大规模数据集。
NoSQL数据库的三大理论基石不包括
- A. BASE
- B. CAP
- C. ACID
- D. 最终一致性
正确答案:C
下列对HBase数据模型的描述错误的是
- A. HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳
- B. 每个HBase表都由若干行组成,每个行由行键(row key)来标识
- C. HBase列族支持动态扩展,可以很轻松地添加一个列族或列
- D. HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本
正确答案:D
HBase中执行更新操作的时候,不会删除旧的版本,反而将其保留
CAP是指
- A. 分区容忍性
- B. 可用性
- C. 持久性
- D. 一致性
正确答案:A,B,D
C: Consistency 一致性
A: Availability 可用性(指的是快速获取数据)
P: Tolerance of network Partition 分区容忍性(分布式)
访问HBase表中的行,有哪些方式
- A. 通过单个行健访问
- B. 通过一个行健的区间来访问
- C. 通过某列的值区间
- D. 全表扫描
正确答案:A,B,D
在HBase中,无法直接通过某列的值区间来访问表中的行,主要是因为HBase的数据模型和索引方式。理解这一点需要考虑HBase的核心设计特性:
- 基于行键的存储和访问:HBase是一个基于列族的NoSQL数据库,它的数据存储和访问主要是基于行键(Row Key)。行键在HBase中是主要的索引方式。数据库在物理存储上是按照行键的字典序排序的,这允许快速的行键查找和基于行键范围的扫描。
- 列族和列的索引方式:虽然HBase按列族存储数据,但它并没有为列族或列中的数据提供二级索引。这意味着,除了行键之外,HBase无法直接利用列的值来快速定位和访问数据。如果要通过某列的值来查找数据,就需要扫描整个表,这在大数据量下效率极低。
- 面向扫描的设计:HBase被设计为支持大规模数据的快速读写,尤其是针对基于行键的访问和扫描。它并不适合需要频繁通过非行键列值进行查询的场景。
因此,如果你需要通过某列的值区间来访问HBase表中的行,你可能需要考虑以下方案:
- 辅助索引:使用外部系统来维护列值到行键的映射,例如使用Apache Solr或Elasticsearch来实现。
- 行键设计:在设计行键时,将常用查询列的值包含进行键中,以便能通过行键范围扫描来达到类似效果。
- 全表扫描:如果数据量较小,可以考虑全表扫描,但这在大数据环境下通常是不可接受的。
下列对HBase的理解正确的是
- A. HBase是一种关系型数据库,现成功应用于互联网服务领域
- B. HBase多用于存储非结构化和半结构化的松散数据
- C. HBase是一个行式分布式数据库,是Hadoop生态系统中的一个组件
- D. HBase是针对谷歌BigTable的开源实现
正确答案:B,D
HBase是一个列族数据库,多用于存储非结构化和半结构化的松散数据,是针对谷歌BigTable的开源实现。
第五章
下列关于Map和Reduce函数的描述,哪个是错误的?
- A. Map将小数据集进一步解析成一批对,输入Map函数中进行处理
- B. Map每一个输入的会输出一批。是计算的中间结果
- C. Reduce输入的中间结果中的List(v 2 )表示是一批属于不同k 2 的value
- D. Reduce输入的中间结果中的List(v 2 )表示是一批属于同一个k 2 的value
正确答案:C
关于MapReduce1.0的体系结构的描述,下列说法错误的是?
- A. Task 分为Map Task 和Reduce Task 两种,分别由JobTracker和TaskTracker 启动
- B. slot 分为Map slot 和Reduce slot 两种,分别供MapTask 和Reduce Task 使用
- C. TaskTracker 使用“slot”等量划分本节点上的资源量(CPU、内存等)
- D. TaskTracker 会周期性接收JobTracker 发送过来的命令并执行相应的操作(如启动新任务、杀死任务等)
正确答案:A
下列哪项是Hadoop生态系统中Spark的功能?
- A. 处理大规模数据的脚本语言
- B. 工作流和协作服务引擎,协调Hadoop上运行的不同任务
- C. 不支持DAG作业的计算框架
- D. 基于内存的分布式并行编程框架,具有较高的实时性,并且较好支持迭代计算
正确答案:D
在Hadoop生态系统中,Kafka主要解决Hadoop 中存在哪些的问题?
- A. Hadoop生态系统中各个组件和其他产品之间缺乏统一的、高效的数据交换中介
- B. 不同的MapReduce任务之间存在重复操作,降低了效率
- C. 延迟高,而且不适合执行迭代计算
- D. 抽象层次低,需要手工编写大量代码
正确答案:A
关于HDFS Federation 的设计的描述,哪个是错误的?
- A. 属于不同命名空间的块可以构成同一个“块池”
- B. HDFS Federation中,所有名称节点会共享底层的数据节点存储资源,数据节点向所有名称节点汇报
- C. 设计了多个相互独立的名称节点
- D. HDFS的命名服务能够水平扩展
正确答案:A
每一个块池对应着其唯一的命名空间
下列关于MapReduce1.0的描述,错误的是?
- A. JobTracker“大包大揽”导致任务过重
- B. 不存在单点故障
- C. 容易出现内存溢出(分配资源只考虑MapReduce任务数,不考虑CPU、内存)
- D. 资源划分不合理(强制划分为slot ,包括Map slot和Reduce slot)
正确答案:B
下列关于MapReduce的体系结构的描述,说法正确的有?
- A. 用户编写的MapReduce程序通过Client提交到JobTracker端
- B. JobTracker负责资源监控和作业调度
- C. TaskTracker监控所有TaskTracker与Job的健康状况
- D. TaskTracker 使用“slot”等量划分本节点上的资源量(CPU、内存等)
正确答案:A,B,D
对于C: JobTracker 负责资源监控和作业调度。
下列说法正确的是?
- A. MapReduce体系结构主要由四个部分组成,分别是:Client、JobTracker、TaskTracker以及Task
- B. Task 分为Map Task 和Reduce Task 两种,均由TaskTracker 启动
- C. 在MapReduce工作流程中,所有的数据交换都是通过MapReduce框架自身去实现的
- D. 在MapReduce工作流程中,用户不能显式地从一台机器向另一台机器发送消息
正确答案:A,B,C,D
版权归原作者 non_hana 所有, 如有侵权,请联系我们删除。