作者:禅与计算机程序设计艺术
1.简介
Apache Spark™是一个开源的快速通用的计算框架,它可以对大数据进行高速分析处理。然而随着大数据实时计算需求的不断增加,传统的基于批处理的数据流处理框架已无法满足需求。Spark Streaming提供了一个简单、灵活且可扩展的方式来对实时的大数据流进行处理,Spark Streaming 2.0将正式成为Apache顶级项目。本文将详细阐述Spark Streaming 2.0。
2.核心概念和术语
Spark Streaming概览
Spark Streaming简介
Apache Spark Streaming 是 Apache Spark 的一个子模块,用于实时数据流处理。它提供了一种快速、简洁的构建实时数据管道的方法,通过将应用逻辑转换成高度容错的微型数据流,并在集群上部署实时应用。Spark Streaming 被设计为围绕 Apache Kafka 和 Akka Streams 来实现的。这些项目为实时计算和流处理提供了最佳的性能,因此,Spark Streaming 可以提供实时的准确性、低延迟、容错能力以及易于管理的功能。
Spark Streaming概览
- Spark Streaming:Spark Streaming 是 Apache Spark 中的一个模块,用于实时数据流处理。它提供了一种快速、简洁的构建实时数据管道的方法。
- DStream(离散流):DStream 是 Spark Streaming 中重要的数据抽象,它代表一个连续的无限序列数据,这种数据流具有水平缩放性。DStream 以容错的方式存储在内
版权归原作者 禅与计算机程序设计艺术 所有, 如有侵权,请联系我们删除。