Kafka 记录

在一个Kafka集群中,每增加一个代理就需要为这个代理配置一个与该集群中其他代理不同的id, id值可以选择任意非负整数即可,只要保证它在整个Kafka集群中唯一,这个id就是代理的名字,也就是在启动代理时配置的broker.id对应的值。同时与传统消息系统不同的是,Kafka并不会立即删除已被消费

大数据本地环境搭建03-Spark搭建

需要提前部署好 Zookeeper/Hadoop/Hive 环境。

Spark中多分区写文件前可以不排序么

会根据partition或者bucket作为最细粒度来作为writer的标准,如果相邻的两条记录所属不同的partition或者bucket,则会切换writer,所以说如果不根据partition或者bucket排序的话,会导致。频繁的切换,这会大大降低文件的写入速度。目前 Spark中的实现中,

Nacos、Eureka、Zookeeper、Consul对比

开发中,经常需要对微服务进行管理,所以需要引入一些服务治理的中间件,用于注册、发现服务,常见的服务治理中间件为。

大数据毕设分享 大数据上海租房数据爬取与分析可视化 -python 数据分析 可视化

# 1 前言🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天要分享的是🚩 基于大数据上海租房数据爬取

2024-02-21(Spark)

4040:是一个运行的Application在运行的过程中临时绑定的端口,用以查看当前任务的状态。4040被占用会顺延到4041,4042等。4040是一个临时端口,当前程序运行完成后,4040就会被注销。4040和Driver相关联,一个Driver启动起来,一个4040端口就被绑定起来,并可以查

RabbitMQ的死信队列和延迟队列

一般用在较为重要的业务队列中,确保未被正确消费的消息不被丢弃,一般发生消费异常可能原因主要有由于消息信息本身存在错误导致处理异常,处理过程中参数校验异常,或者因网络波动导致的查询异常等等,当发生异常时,当然不能每次通过日志来获取原消息,然后让运维帮忙重新投递消息。先把订单消息设置好 15 分钟过期时

RabbitMQ控制界面详解

RabbitMQ控制界面详解

Iceberg从入门到精通系列之二十一:Spark集成Iceberg

Spark 支持通过指定catalog-impl 属性来加载自定义Iceberg Catalog 实现。

Eureka和Nacos

Spring Cloud提供了多种服务注册和发现的解决方案,Eureka和Nacos是其中两个非常流行的选项。下面,我们将深入探索这两种注册中心的工作原理、配置和使用方法。

Kafka 入门介绍

Kafka 最初由 Linkedin 公司开发,是一个分布式、支持分区的(Partition)、多副本的(Replica),基于 Zookeeper 协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景,比如基于 Hadoop 的批处理系统、低延迟的实时系统、Storm/

消息队列-RabbitMQ:MQ作用分类、RabbitMQ核心概念及消息生产消费调试

RabbitMQ 的概念RabbitMQ 是一个消息中间件,它接受并转发消息。你可以把它当做一个快递站点,当你要发送一个包裹时,你把你的包裹放到快递站,快递员最终会把你的快递送到收件人那里,按照这种逻辑 RabbitMQ 是 一个快递站,一个快递员帮你传递快件。RabbitMQ 与快递站的主要区别在

Hbase集群的搭建

hadoop、zookeeper集群已正常安装。

Kafka 命令行操作

Kafka常用命令行操作,Shell,.sh

RabbitMQ-业务的幂等性

消费者拿到id之后,保存到数据库,后续消费时,需要查数据库进行比较,因此这种方案的缺点就是有业务的入侵,对性有一定的影响。

HBase的数据库与Apache Atlas的集成

1.背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统,基于Google的Bigtable设计。它是Hadoop生态系统的一部分,可以与HDFS、Hive、Pig等其他组件集成。Apache Atlas是一个元数据管理系统,用于管理、发现和搜索Hadoop生态系统中的元数据。在大数据时代,

Zookeeper与ApacheFlink的集成与优化

1.背景介绍1. 背景介绍Apache Flink 是一个流处理框架,用于实时数据处理和分析。它可以处理大量数据,并在实时性和性能方面表现出色。然而,在分布式环境中,Flink 需要一个可靠的集群管理系统来保证数据的一致性和可用性。这就是 Zookeeper 发挥作用的地方。Zookeeper 是一

大数据StarRocks(五) :数据类型

StarRocks 支持数据类型:数值类型、字符串类型、日期类型、半结构化类型、其他类型。您在建表时可以指定以下类型的列,向表中导入该类型的数据并查询数据。5.1 数值类型SMALLINT 2 字节有符号整数,范围 [-32768, 32767]INT 4 字节有符号整数,范围 [-21474836

Flink基础篇|001_Flink是什么

我们通常说的Flink是来Apache Flink,他是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持

RabbitMQ 消息中间件与集群的部署

Kafka是LinkedIn开源的分布式发布-订阅消息系统,目前归属于Apache顶级项目。Kafka主要特点是基于Pull的模式来处理消息消费,追求高吞吐量,一开始的目的就是用于日志收集和传输。0.8版本开始支持复制,不支持事务,对消息的重复、丢失、错误没有严格要求,适合产生大量数据的互联网服务的

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈