0


Building a Realtime Streaming Data Pipeline Using Kafka

作者:禅与计算机程序设计艺术

1.简介

Apache Kafka是一个开源的分布式流处理平台,由LinkedIn开发并开源,用于高吞吐量、低延迟的数据实时传输。本文将使用Kafka作为数据源,使用Storm作为流处理框架构建实时数据流水线。在这一过程中,我们可以学习到如何利用Kafka中的消息持久化能力、Storm中处理数据的实时性、状态管理、容错等功能实现一个完整的数据管道。在本项目中,我们将从头构建一个简单的实时流处理系统,包括Kafka消息队列、Storm集群、数据转换模块、数据输出模块以及监控模块。

为了更好的理解实时流处理系统的架构原理,作者将首先介绍相关概念以及常用技术,然后详细阐述项目中的主要组件及其具体功能,最后结合实际案例对系统进行部署测试。

文章内容如此丰富,读者需耐心阅读才能全面地理解,建议各位准备阅读以下相关内容:

2.基本概念术语说明

2.1 Apache Kafka

Apache Kafka是一种开源分布式流处理平台,基于发布/订阅模式,由Apache软件基金会开发。它是一个基于分布式日志的存储服务,它以高吞吐量和低延迟而闻名,被广泛应用于消息队列领域。

2.1.1 消息模型

Kafka是一个分布式流处理平台,基于消息模型进行通信。一个消息由多个字节组成,这些字节被分割成固定大小的消息记录。这些记录保存在磁盘上,并且可以被复制到多台服务器以提供冗余备份。消息根据主题进行分类,生产者和消费者都可以向指定的主题发送或读取消息。

2.1.2 分区(Partition&#x


本文转载自: https://blog.csdn.net/universsky2015/article/details/132867648
版权归原作者 禅与计算机程序设计艺术 所有, 如有侵权,请联系我们删除。

“Building a Realtime Streaming Data Pipeline Using Kafka”的评论:

还没有评论