0


Spark Streaming实时数据处理

作者:禅与计算机程序设计艺术

1.简介

Apache Spark™Streaming是一个构建在Apache Spark™之上的快速、微批次、容错的流式数据处理系统,它可以对实时数据进行高吞吐量、低延迟地处理。Spark Streaming既可用于流计算场景也可用于离线批处理场景,而且可以将结构化或无结构化数据源(如Kafka、Flume、Kinesis)的数据实时流式传输到HDFS、HBase、Kafka等存储中。它具有高吞吐量、容错性、易扩展性、复杂的容错机制和丰富的API支持。本文主要介绍了Spark Streaming的相关知识,并通过例子帮助读者快速上手Spark Streaming。

2.基本概念术语说明

2.1 Apache Spark™Streaming

Apache Spark™Streaming是基于Apache Spark™而开发的用于实时数据分析的模块。它由驱动程序和执行引擎两部分组成,其中驱动程序负责从数据源接收输入数据并将其划分为多个批次进行处理;执行引擎则负责为各个批次分配任务并将结果输出到外部系统。Apache Spark™Streaming在系统架构上采用微批处理的方式,它可以处理实时流数据中的少量数据,并且在数据处理过程中采用数据切片、持久化和容错策略,使得系统可以应对各种异常情况。其内部采用事件时间机制保证数据准确性,同时还提供诸如窗口操作、状态管理和计算图等高级功能。Apache Spark™Streaming应用场景包括流计算、机器学习、IoT、日志处理、数据采集等领域。

2.2 流数据与离线数据

一般来说,流数据与离线数据之间的区别仅仅是数据的时间维度不同。流数据通常是指连续不断产生的数据流,这些数据按照固定周期、不间断地生成。例如,互联网网


本文转载自: https://blog.csdn.net/universsky2015/article/details/133191784
版权归原作者 禅与计算机程序设计艺术 所有, 如有侵权,请联系我们删除。

“Spark Streaming实时数据处理”的评论:

还没有评论