0


【大数据 复习】第11,12,13,14章

Web应用与流数据

1.在Web应用、网络监控、传感监测等领域,兴起了一种新的数据密集型应用——静态数据,即数据以大量、快速、时变的流形式持续到达。( )

正确答案: 错误

错误在静态数据,这里应该叫非静态数据之类的,虽然没有这个名词。

2.流数据适合采用批量计算,因为流数据适合用传统的关系模型建模。( )

正确答案: 错误

传统的关系模型一般是用于静态数据的存储和分析,例如 SQL 数据库中的表结构。

对于流数据,通常更适合使用流处理系统(如Apache Kafka、Apache Flink等)进行实时处理和分析,

3.流计算:实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息。( )

正确答案: 正确

4.流计算秉承一个基本理念,即数据的价值随着时间的流逝而增加。( )

正确答案: 错误

数据的价值随时间的流逝而减小

5.Storm是免费、开源的分布式实时计算系统,可简单、高效、可靠地处理大量的流数据。( )

正确答案: 正确

6.流计算的处理流程一般包含三个阶段:数据实时采集、数据实时计算、实时查询服务。( )

正确答案: 正确

7.数据实时采集阶段通常采集多个数据源的海量数据,需要保证实时性、低延迟与稳定可靠。( )

正确答案: 正确

8.Spark Streaming的基本原理是将实时输入数据流以时间片(秒级)为单位进行拆分,然后经Spark引擎以类似批处理的方式处理每个时间片数据。( )

正确答案: 正确

9.Spark Streaming和Storm最大的区别在于,Spark Streaming可以实现毫秒级的流计算,而Storm无法实现毫秒级响应。( )

正确答案: 错误

二者都是流处理系统,但是运行速度说反了。

(1)Spark Streaming是基于微批处理(micro-batch processing)的模型,它将实时数据流切分成小批量数据,然后使用Spark引擎处理每个批次的数据。通常情况下,它的批处理间隔可以设置为几秒钟。

(2)Storm采用的是事件驱动的流处理模型,它可以实现几乎实时的数据处理,通常能够达到毫秒级的响应时间。Storm的设计更加注重低延迟和高吞吐量,适合需要实时处理和即时响应的应用场景。

10.流计算可应用在多个场景中,如实时业务分析,流计算带来的实时性特点,可以大大增加实时数据的价值,为业务分析带来质的提升。( )

正确答案: 正确

Flink

1.Flink的主要特性包括:批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。( )

正确答案: 正确

2.Flink 不仅可以运行在包括 YARN、 Mesos、Kubernetes等在内的多种资源管理框架上,还支持在裸机集群上独立部署。在启用高可用选项的情况下,它不存在单点失效问题。( )

正确答案: 正确

3.为了高效地实现流处理架构,一般需要设置消息传输层、流处理层和批处理层。( )

正确答案: 错误

因为流处理架构通常主要包括两个关键组件:流处理层和消息传输层(如消息队列)。

批处理层通常是针对静态数据的处理,不是流处理架构的典型组成部分。

4.Flink支持高吞吐、高延迟、高性能。( )

正确答案: 错误

Flink 的设计目标是低延迟和高吞吐。

5.Flink支持流处理和批处理,具有良好的容错性,具有独立的内存管理。( )

正确答案: 正确

图数据与BSP模型

1.许多非图结构的大数据,也常常会被转换为图模型后进行分析。( )

正确答案: 正确

2.关联性计算是大数据计算的核心——通过获得数据的关联性,可以从噪音很多的海量数据中抽取有用的信息。( )

正确答案: 正确

3.一次BSP(Bulk Synchronous Parallel Computing Model,又称“大同步”模型)计算过程包括一次全局超步(所谓的超步就是计算中的一次迭代)。( )

正确答案: 错误

一次BSP计算过程通常不止包括一个超步。

超步(superstep)是指每个节点在同步执行局部计算后,等待所有节点完成,然后进行全局通信和同步的过程。就是提前写完了不让提前交卷,必须等其他人写完才能交。

4.每个超步主要包括四个组件:局部计算、通讯、路障和栅栏同步。( )

正确答案: 错误

BSP模型的超步包括以下几个步骤:

(1)局部计算:每个节点执行本地计算。

(2)通信:节点之间交换消息,进行信息交流。

(3)路障(barrier)同步:所有节点在完成局部计算后,等待其他节点也完成局部计算。

(4)栅栏(barrier)同步:所有节点在通信完成后,等待其他节点也完成通信。

这里描述的是BSP模型的基本步骤,但并非每个超步都有栅栏同步的要求,

5.Pregel是一种基于BSP模型实现的并行图处理系统,主要用于图遍历、最短路径、PageRank计算等等。( )

正确答案: 正确

数据可视化

  1. 数据可视化是指将大型数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。( )

    正确答案: 正确

  2. 数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。( )

    正确答案: 正确

标签: 大数据

本文转载自: https://blog.csdn.net/m0_69194031/article/details/139890473
版权归原作者 lsy永烨 所有, 如有侵权,请联系我们删除。

“【大数据 复习】第11,12,13,14章”的评论:

还没有评论