大数据-58 Kafka 高级特性 消息发送02-自定义序列化器、自定义分区器
上节我们完成了Kafka的高级特性中的,消息发送-基本流程、原理剖析的部分。本节我们研究Kafka高级特性,消息发送-自定义序列化器、自定义分区器的Java实现。
大数据-60 Kafka 高级特性 消息消费01-消费组图例 心跳机制图例
上节完成Kafka拦截器、自定义拦截器,Kafka原理剖析图。本节进入消费者的消费组、消费者的心跳机制。多个消费者可以加入到一个消费组中,共享 group_id, group_id 一般设置为应用的逻辑名称。一个拥有四个分区的主题,包含一个消费者的消费组。如果消费组有2个,则每个消费者分别从两个分区
Spring Boot与Apache Kafka Streams的集成
通过本文,我们详细介绍了如何在Spring Boot应用程序中集成Apache Kafka Streams,包括添加依赖、配置Kafka连接、编写Kafka Streams处理拓扑和消费者/生产者。Apache Kafka Streams作为强大的流处理框架,与Spring Boot的集成能够为应用
安装配置Kafka,并使用Java集成Kafka
Kafka 是Java 语言编写的,因此需要在安装 Kafka 之前先安装 Java 运行环境。Kafka 支持 Java 8 及以上版本。可以通过以下命令检查 Java 运行环境的版本Kafka 的运⾏环境依赖于 ZooKeeper,Kafka 使用 ZooKeeper 进行分布式协调,因此在安装
大数据-52 Kafka 基础概念和基本架构 核心API介绍 应用场景等
上节我们完成了Redis的高可用、主从模式、一主多从、一主一从、哨兵模式、Docker-compose进行配置测试。本节我们开始学习Kafka,基础概念、基本架构、核心API介绍、应用场景。Kafka最初是由Linkedin公司开发,是一个分布式、分区的、多副本、多生产者、多消费者、基于ZK的。常见
大数据-57 Kafka 高级特性 消息发送相关01-基本流程与原理剖析
上节完成了Kafka JavaAPI的使用,在SpringBoot中进行测试。本节研究Kafka的高级特性,消息发送相关的:基本流程 和 原理剖析部分。该配置设置了一个延迟,生产者消息不会立即将消息送到Broker,而是等待这么一段时间以积累消息,然后将这段消息之类的消息作为一个批次发送,该设置是批
大数据-61 Kafka 高级特性 消息消费02-主题与分区 自定义反序列化 拦截器 位移提交 位移管理 重平衡
上节我们完成了消费组测试、消费组心跳机制、相关配置参数等内容。本节研究Kafka高级特性的 主题与分区 自定义反序列 拦截器 位移提交 重平衡 如何避免重平衡等概念问题。重平衡可以说是Kafka中诟病最厉害的一部分。重平衡是一个协议,它规定了如何让消费者组下的所有消费者来分配Topic中每一个分区。
大数据-78 Kafka 集群模式 集群的应用场景与Kafka集群的搭建 三台云服务器
上节研究了Kafka的延时队列、重试队列。本节进入Kafka最后的环节,Kafka集群模式的搭建。多节点的Kafka集群搭建。Kafka的需要用户在由多个阶段组成的处理管道中处理数据,其中原始输入数据从Kafka主题中使用,然后进行汇总,充实或以其他方式转换为新主题,以供进一步使用或后续处理。Kaf
如何查看Kafka的偏移量offset
如何查看Kafka的偏移量offset
大数据-76 Kafka 高级特性 稳定性-消费重复 生产者、Broker、消费者 导致的重复消费问题
上节研究了Kafka的稳定性-一致性保证,而且研究了LEO和HW,以及Leader和Follower何时更新LEO和HW。本节研究消费消息重复,出现数据重复的环节有:生产者阶段、Broker阶段、消费者阶段。以及给出对应阶段的解决方案。
Kafka吞吐量高的原因
Apache Kafka能够实现高吞吐量的原因归结于其独特的设计和架构选择。
大数据-63 Kafka 高级特性 分区 副本机制 宕机恢复 Leader选举
上节完成kafka-topics基本参数和使用,涉及创建、查看、修改等等内容。本节学习Kafka的高级特性:分区,包含副本机制、宕机恢复、Leader的选举。副本之间的关系并不是固定不变的,在Leader所在的Broker发生故障的时候,就需要进行分区的Leader副本和Follower副本之间的切
大数据-67 Kafka 高级特性 分区 分配策略 Ranger、RoundRobin、Sticky、自定义分区器
上节Kafka高级特性分区-副本数量调整,业务中遇到副本调整需求,但是无法直接修改,需要JSON+脚本的方式来进行配置。本节分区-分区策略,有Ranger、RoundRobin、Sticky等策略,最后实现自定义分区器。需要实现org.apache.kafka.clients.consumer.in
消息中间件:深入理解 Kafka 的核心架构与组件解析
Kafka 是一种流行的分布式流处理平台,广泛应用于实时数据处理和消息队列场景。本文将深入解析 Kafka 的核心架构及其各个组成部分,包括 Broker、主题、分区、生产者、消费者、消费者组、Zookeeper、日志、偏移量,以及 Leader-Follower 机制。通过清晰的关系图和详细的解释
大数据-65 Kafka 高级特性 分区 Broker自动再平衡 ISR 副本 宕机恢复再重平衡 实测
上节完成模拟Kafka集群中的分区重新分配,当线上Kafka节点不够用时,新增节点后,分区不会分配,需要脚本来重新分配。本节我们继续研究分区中Broker的自动再平衡,当Broker宕机再恢复后,分区也不会恢复,需要脚本进行自动再重平衡。
大数据-72 Kafka 高级特性 稳定性-事务 (概念多枯燥) 定义、概览、组、协调器、流程、中止、失败
上节完成了Kafka高级特性的磁盘存储部分,涉及到零拷贝、磁盘文件传输、JavaNIO、mmap、sendfile等概念信息。本节继续Kafka高级特性:事务(概念较多很枯燥。生产者可以显式的发起事务会话,在这些会话中发送(事务)消息,并提交或中止事务。原子性:消费者的应用程序不应暴露于未提交的消息
基于Canal和Kafka实现MySQL的Binlog近实时同步
近段时间,业务系统架构基本完备,数据层面的建设比较薄弱,因为笔者目前工作重心在于搭建一个小型的数据平台。优先级比较高的一个任务就是需要近实时同步业务系统的数据(包括保存、更新或者软删除)到一个另一个数据源,持久化之前需要清洗数据并且构建一个相对合理的便于后续业务数据统计、标签系统构建等扩展功能的数据
部署kafka时OS需要做什么?
kafka作为一个突出读写性能的消息队列组件。如何做好性能调优,是我们的一个课题。这里我们探讨在os层面,可以对集群进行哪些优化。
Kafka-偏移量(含消费者事务)
Kafka偏移量