0


Spark Streaming实战

作者:禅与计算机程序设计艺术

1.简介

Apache Spark™作为世界上最流行的开源大数据计算框架之一,在近几年越来越受到大家的关注。基于Spark的分布式计算能力和速度的突飞猛进,使其成为许多企业应用中不可或缺的一环。 但Spark本身所提供的高级特性如:SQL、Streaming等也带来了一些新的复杂性。为了更好的理解Spark Streaming,以及如何在实际生产环境中应用Spark Streaming,作者不得不花费不少心思研究。因此他着手撰写一本《Spark Streaming实战》。这本书将系统地介绍Spark Streaming的概念、原理和特性,并通过真实案例加深读者对其核心概念和功能的理解。最后还将介绍Spark Streaming在实际生产中的应用场景,以及一些开发技巧和工具。文章的编写经验丰富的工程师、领域专家和资深用户,将能够从中获益匪浅。

2.基础概念

2.1 Apache Spark

Apache Spark是一种开源的、快速、通用的大规模数据处理框架。它支持运行在常见的集群管理器(如Mesos、YARN)和多种存储系统(HDFS、HBase、Cassandra、Kafka)上的批处理和实时分析工作负载,并具有强大的并行性、容错性、水平扩展性和弹性。Spark能做什么?Spark是用于进行快速数据处理的框架,主要用来处理海量数据集,并提供了高性能的并行算法库。Spark可以进行低延迟、实时的处理、机器学习和流处理。其核心概念如下图所示:

2.2 Spark Streaming

Spark Streaming是一个微型的Spark系统,它提供对实时数据流进行实时处理的功能。这种系统可以接收输入数据流(比如来自TC


本文转载自: https://blog.csdn.net/universsky2015/article/details/133446599
版权归原作者 禅与计算机程序设计艺术 所有, 如有侵权,请联系我们删除。

“Spark Streaming实战”的评论:

还没有评论