从0到1搭建大数据平台之开篇
学大数据必须了解的知识点。硬核
Kafka集群和kafka-manager安装
Kafka集群和kafka-manager安装MacBook Linux安装zookeeperMacBook Linux安装Kafkakafka-manager安装curl https://bintray.com/sbt/rpm/rpm | sudo tee /etc/yum.repos.d/bin
Kafka消费者组整合代码实现分区分配策略以及offset使用场景
分区分配策略、Range、RoundRobin、Sticky 以及再平衡、offset 位移、自动提交offset、手动提交 offset、指定 Offset 消费、指定时间消费、漏消费和重复消费、消费者事务、数据积压
Kafka入门
Kafka是一个分布式系统,由通过高性能TCP网络协议进行通信的服务器和客户端组成。它可以部署在本地和云环境的裸机硬件、虚拟机和容器上。服务器:Kafka作为一个或多个服务器的集群运行,可以跨越多个数据中心或云区域。其中一些服务器形成存储层,称为代理。其他服务器运行Kafka Connect以将数据
Kafka原理及应用实践,用心看这篇就够了【重点】
1.1 概述Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据,具有高性能、持久化、多副本备份、横向扩展能力。1.2 基础架构及术语通过上面一张图,可能有的术语还不太清楚,下面我们一个一个的解释:Producer:Producer即生产者,消息的产生者,是
消息队列的消息积压解决办法
1.1 概述其实本质针对的场景,就是说可能你的消费端出了问题,不消费了;或者消费的速度极其慢。接着就坑爹了,就可能出现以下三大问题场景:1、可能你的消息队列集群的磁盘都快写满了,都没人消费,这个时候怎么办?2、或者是这整个就积压了几个小时,你这个时候怎么办?3、或者是你积压的时间太长了,导致比如 R
【Kafka从入门到成神系列 六】Kafka 消费组及重平衡
大家好,我是爱敲代码的小黄,独角兽企业的Java开发工程师,Java领域新星创作者。这是我的系列专栏:Kafka 从入门到成神。如果文章知识点有错误的地方,请指正!和大家一起学习,一起进步。如果感觉博主的文章还不错的话,请三连支持一下博主哦。
【Kafka从入门到成神系列 五】Kafka 幂等性及事务
大家好,我是爱敲代码的小黄,独角兽企业的Java开发工程师,Java领域新星创作者。这是我的系列专栏:Kafka 从入门到成神。如果文章知识点有错误的地方,请指正!和大家一起学习,一起进步。如果感觉博主的文章还不错的话,请三连支持一下博主哦。
【Kafka从入门到成神系列 三】Kafka 生产者消息分区及压缩算法
作者简介:大家好,我是爱敲代码的小黄,独角兽企业的Java开发工程师,Java领域新星创作者。个人公众号:爱敲代码的小黄。系列专栏:Java设计模式、数据结构和算法、Kafka从入门到成神。如果文章知识点有错误的地方,请指正!和大家一起学习,一起进步。如果感觉博主的文章还不错的话,请三连支持一下博主
Kafka集群搭建(使用自带zookeeper,多节点)
1-Kafka集群搭建1.安装包解压至相应目录/home/ZX/soft/kafka_2.12-3.0.02.搭建三个节点IP broker.id myid10.103.105.91 1
客快物流大数据项目(六十一):将消费的kafka数据同步到Kudu中
目录将消费的kafka数据同步到Kudu中一、导入表名映射关系类二、编写数据解析器根据表名解析成具体的POJO对象三、扩展自定义POJO的隐式转换实现四、转换Ogg和Canal对应主题的数据为具体的POJO对象五、实现Kudu表的自动创建工具类六、将数据写入
CentOS 7.6环境安装kafka_2.13-3.0.0[单机版]
本节内容主要总结一下如何在CentOS 7.6上安装kafka 2.13-3.0.0注意:此单机版使用的是kafka自带的zookeeper1.组件版本组件 版本 CentOS 7.6 JDK 1.8.0_221 kafka 2.13-3.0.0 2.环境设置Init-env
kafka初学(自己觉得好难)
kafka初学一、介绍Kafka是是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统低延迟的实时系统Storm/Spark流式处理引擎web
Kafka消息失败后无限重复消费现象的排查
文章目录背景相关代码现象解决方法Reference背景项目中用到了kafka消息队列,在开发测试过程中发现了消息端设置的最大重试次数失效的情况,具体信息如下:consumer: 3partition:1maxRetryTimes:15spring-kafka: 2.2.15.RELEASEkafka
大数据场景下的消息队列:Kafka3.0快速入门
大数据场景下的消息队列:Kafka3.0快速入门
Kafka架构、高性能和高可用性分析
本文主要介绍Kafka架构、高性能、高可用以及mac本地安装kafka
零拷贝技术浅浅析【kafka实现百万级吞吐量基础】
零拷贝不是一种技术,而是软件、硬件、语言的结合,目的在于减少io操作时cpu的等待时间
Flink 版本数据湖(hudi)实时数仓---flinkcdc hudi kafak hive
1.架构图2.实现实例2.1 通过flink cdc 的两张表 合并 成一张视图, 同时写入到数据湖(hudi) 中 同时写入到kafka 中2.2 实现思路1.在flinksql 中创建flink cdc 表2.创建视图(用两张表关联后需要的列的结果显示为一张速度)3.创建输出表,关联Hudi表
flink cdc 整合 数据湖hudi 同步 hive
1. 版本说明组件版本hudi10.0flink13.5hive3.1.02. 实现效果 通过flink cdc 整合 hudi 到hiveflink cdc 讲解flink cdc 1.2实例flink cdc 2.0 实例