Spark-RDD和共享变量
每个Spark应用程序都由一个组成,该驱动程序运行我们编写的main函数,并在集群上执行各种操作。Spark提供的主要抽象是一个弹性分布式数据集,它是一个跨集群节点分区的元素集合,可以并行操作。RDD是通过从Hadoop文件系统(或任何其他Hadoop支持的文件系统)中的文件或中现有的Scala集合
rabbitMQ的简单使用
RabbitMQ是一个开源的消息代理和队列服务器,主要用于在不同的应用程序之间传递消息。它基于AMQP(Advanced Message Queuing Protocol)协议,提供了一种可靠的方式来处理异步通信。RabbitMQ使用Erlang语言编写,具有高可用性、可伸缩性和可靠性。
Prometheus监控ZooKeeper
ZooKeeper是一个分布式协调服务,在分布式系统中扮演着重要角色。为了确保ZooKeeper集群的健康运行,有效的监控至关重要。本文将详细介绍如何使用Prometheus监控ZooKeeper,包括安装配置、关键指标、告警设置以及最佳实践。
zookeeper与kafka
消息队列:MQ在高并发环境下,同步的请求来不及处理,请求太多就会造成阻塞比如说大量请求并发到数据库,too many connection报错。消息队列,使用异步处理方式,可以缓解系统处理请求压力。zookeeper就是保存集群的元数据kafka工作流程消费者出现延迟或者处理能力太差,导致消息堆积。
Kafka架构详解之分区Partition
Apache Kafka 是分布式发布 - 订阅消息系统,在 kafka 官网上对 kafka 的定义:一个分布式发布 - 订阅消息传递系统。Kafka 最初由 LinkedIn 公司开发,Linkedin 于 2010 年贡献给了 Apache 基金会并成为顶级开源项目。Kafka 的主要应用场景
Spark实时(一):StructuredStreaming 介绍
SparkStreaming与Structured Streaming相比较,SparkStreaming是Spark最初的流处理框架,只能使用DStream算子编程,底层是RDD操作,而Structured Streaming是Spark2.0后退出的流式处理框架,处理支持Spark,底层操作是基
logstash接收kafka日志
logstash接收kafka日志
hive环境安装
0.hive环境安装win0.解压1.配置环境windows运行不了hive高版本 需替换bin下载 http://archive.apache.org/dist/hive/hive-1.0.0/ 替换原来bin下载和拷贝一个mysql-connector-java-8.0.x.jar到 $HIV
Spark实时(四):Strctured Streaming简单应用
Continuous不再是周期性启动task的批量执行数,而是启动长期运行的task,而是不断一个一个数据进行处理,周期性的通过指定checkpoint来记录状态(如果不指定checkpoint目录,会将状态记录在Temp目录下),保证exactly-once语义,这样就可以实现低延迟。注意:以上代
大数据-68 Kafka 高级特性 物理存储 日志存储概述
上节研究Kafka的分区分配策略,Range、RoundRobin、Sticky、自定义策略。本来研究Kafka物理存储,日志存储的概述内容。消息是以主题为单位进行归类,各个主题之间是彼此独立的,互不影响。每个主题又可以分为一个或多个分区每个分区各自存在一个记录消息数据的日志文件我这里的情况是:有一
ClickHouse 分布式部署、分布式表创建及数据迁移指南
Quantum Insights 的部署将基于一个高可用的分布式 ClickHouse 集群,以实现对大规模数据的高效处理和查询。
kafka消费者
可以理解为分配的结果带有“粘性的”。即在执行一次新的分配之前,考虑上一次分配的结果,尽量少的调整分配的变动,可以节省大量的开销。粘性分区是 Kafka 从 0.11.x 版本开始引入这种分配策略,首先会尽量均衡的放置分区到消费者上面,在出现同一消费者组内消费者出现问题的时候,会尽量保持原有分配的分区
RabbitMQ中常用的三种交换机【Fanout、Direct、Topic】
此时支付服务会把支付结果发送到交换机中,而短信服务就会去监听这个交换机,但是交换机不会把所有的消息都路由给短信服务,而只把支付成功的消息路由给这个短信服务。这种情况下,就需要使用到这个Direct交换机,短信服务下的队列和这个交换机设置一个key(例如:success),支付服务发消息时,支付成功R
大数据-66 Kafka 高级特性 分区 副本因子修改 replicas动态修改
上节完成了Kafka宕机恢复后,Leader不会重新分配,需要我们用脚本重新恢复。本节对Kafka集群的副本因子进行修改,现实业务中我们会遇到:当Kafka集群中有一个节点宕机了,比如Broker0、Broker1中,Broker1宕机了,此时由于我们配置了副本数为2,Kafka集群正常工作,提供生
kafka-重试和死信主题(SpringBoot整合Kafka)
在Kafka中,DLT通常指的是 。Dead Letter Topic(DLT)的定义与功能:DLT的使用与意义:总之,在Kafka中,DLT是一个用于处理无法被成功消费的消息的特殊Topic,它提供了一种灵活且可靠的机制来保障Kafka系统的稳定性和可靠性。3.2、引入spring-kafka依赖
摸鱼大数据——Kafka——kafka tools工具使用
可以在可视化的工具通过点击来操作kafka完成主题的创建,分区等操作注意: 安装完后桌面不会有快捷方式,需要去电脑上搜索,或者去自己选的安装位置找到发送快捷方式到桌面!
Win10安装和使用Apache Kafka
Apache Kafka是一个开源的分布式流处理平台,广泛用于构建高性能的数据管道和流式应用程序。它能够处理大量数据,支持实时数据流的传输和处理,适用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等多种大数据场景。Kafka具有高吞吐量、可扩展性强、低延迟的特点,它通过分区、复制和容错机制来
【kafka】可视化工具cmak(原kafka-manager)安装&问题解决
众所周知(反正不管你知不知道),kafka-maneger更名了,现在叫cmak!原因是什么呢?据不可靠小道信息说,原kafka-manager这个名字涉及到kafka商标使用问题,应该是被律师函警告了,所以就换名了~
Kafka的工作流程
消息生产: 生产者将消息发送到Kafka集群,并选择目标分区。消息存储: Broker将消息持久化到磁盘,并通过副本机制保证数据的高可用性和容错性。消息消费: 消费者从Kafka集群拉取消息,并处理消息。消费者定期提交消费进度,以确保消息的准确处理和故障恢复。通过理解Kafka的工作流程,可以更好地
Kafka 实战 - Kafka 的备份机制
Apache Kafka 提供了一种基于副本(Replication)的备份机制,以确保数据的高可用性和容错能力。