「Kafka」消费者篇
Kafka 消费方式、Kafka 消费者工作流程、生产经验—分区的分配以及再平衡、offset 位移、生产经验—消费者事务、生产经验—数据积压(消费者如何提高吞吐量)等内容。
【Flink-1.17-教程】-【五】Flink 中的时间和窗口(1)窗口(Window)
在批处理统计中,我们可以等待一批数据都到齐后,统一处理。但是在实时处理统计中,我们是来一条就得处理一条,那么我们怎么统计最近一段时间内的数据呢?引入“窗口”。所谓的“窗口”,一般就是划定的一段时间范围,也就是“时间窗”;对在这范围内的数据进行处理,就是所谓的窗口计算。所以窗口和时间往往是分不开的。接
kafka如何保证消息不丢?
我们知道Kafka架构如下,主要由 Producer、Broker、Consumer 三部分组成。一条消息从生产到消费完成这个过程,可以划分三个阶段,生产阶段、存储阶段、消费阶段。产阶段: 在这个阶段,从消息在 Producer 创建出来,经过网络传输发送到 Broker 端。存储阶段: 在这个阶段
Kafka_03_Consumer详解
Consumer详解以及实现原理解析
如何使用Hive或者HadoopMR访问表格存储中的表
更新时间:2023-12-14 09:58本文主要为您介绍如何使用Hive或者HadoopMR访问表格存储中的表。
面试:大数据和深度学习之间的关系是什么?
大数据的定义与特点:大数据指的是规模(数据量)、多样性(数据类型)和速度(数据生成及处理速度)都超出了传统数据处理软件和硬件能力范围的数据集。它具有四个主要特点,通常被称为4V:Volume(体量)、Velocity(速度)Variety(多样性)和Veracity(真实性)大数据与深度学习的关系,
flink多流操作(connect cogroup union broadcast)
2 connect连接操作2.1 connect 连接(DataStream,DataStream→ConnectedStreams)connect 翻译成中文意为连接,可以将两个数据类型一样也可以类型不一样 DataStream 连接成一个新 的 ConnectedStreams。需要注意的是,c
Hive之set参数大全-16
在 Hive 中,是一个参数,用于配置 HiveServer2 的传输模式。该参数定义了 HiveServer2 使用的传输协议,可以是二进制(Binary)或 HTTP。以下是设置其中,是传输模式,可以是binary或http。请注意,这样的设置只对当前 HiveServer2 会话有效,当 Hi
RabbitMQ_基础
RabbitMQ 是一个被广泛应用于消息队列的开源消息代理软件。它实现了高级消息队列协议(AMQP),这是一种网络协议,用于提供可靠的消息传递服务。RabbitMQ 被设计用来在分布式系统中处理大量的消息,并提供了可靠的消息传输机制,以确保消息的安全和顺序传递。
3.Eureka注册中心
假如我们的服务提供者user-service部署了多个实例,如图:大家思考几个问题:这些问题都需要利用SpringCloud中的注册中心来解决,其中最广为人知的注册中心就是Eureka,其结构如下:回答之前的各个问题。问题1:order-service如何得知user-service实例地址?获取地
大数据技术3:数据仓库的ETL和分层模型
数据仓库是一个面向主题的集成的相对稳定的反映历史变化(Time Variant)的数据集合,用于支持管理决策。数据仓库概念是 Inmon 于 1990 年提出并给出了完整的建设方法。随着互联网时代来临,数据量暴增,开始使用大数据工具来替代经典数仓中的传统工具。此时仅仅是工具的取代,架构上并没有根本的
Spark大数据分析与实战笔记(第三章 Spark RDD 弹性分布式数据集-03)
依赖关系分为窄依赖和宽依赖,窄依赖表示每个父RDD的分区最多只被一个子RDD的分区使用,宽依赖表示每个父RDD的分区可以被多个子RDD的分区使用。需要注意的是,RDD的分区函数是针对(Key,Value)类型的RDD,分区函数根据Key对RDD元素进行分区。RDD是Spark提供的最重要的抽象概念,
2024最新Spark核心知识点总结
转换(transformations) :从已经存在的数据集中创建一个新的数据集,会创建一个新的RDD,例如map操作,会把数据集的每个元素传给函数处理,并生成一个新的RDD,常见如:Map,Filter,FlatMap,GroupByKey,ReduceByKey,Join,Sort,Partio
黑马头条 Kafka
Kafka消息队列,文章上下架,解决头条系统的点赞,评论,收藏等
Hive调优-计算资源分配
有些时候,代码运行速度慢、效率低,可能仅仅是因为资源分配不当。
Java分布式锁理论(redis、zookeeper) 详解
1、定时任务2、秒杀抢购,防止库存超卖的问题3、双写一致性协议比如我们为了高可用性搭建了服务集群,分别是8080和8081,我们在项目中设立定时任务,目的是每天晚上定时拉取用户数据,给每个人发送一些推荐短信。那么这会出现什么问题呢?8080和8081都有定时任务,到半夜2点同时查询数据库,同时调用阿
【RabbitMQ】MQ的基本概念、RabbitMQ简介及安装
本文涉及MQ的基本概念、RabbitMQ简介、RabbitMQ的安装等内容
HBase性能优化与调参
1.背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统,基于Google的Bigtable设计。它是Hadoop生态系统的一部分,可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase具有高可用性、高可扩展性和强一致性等特点,适用于大规模数据存储和实时数据处理。随着数
【SpringBoot+Eureka知识总结】
④启动各个eurekaServer服务,输入其注册地址,看到页面上的ds deplicas栏下其注册的其他eurekaServer节点地址,application可看到注册到上面的微服务节点,即完成集群的搭建。原理:相同的微服务名称下,对应多个微服务模块,客户端访问时只需要关心注册到eureka的微
RabbitMQ的高可用机制
RabbitMQ通过多种机制提供高可用性(HA)支持,以确保消息系统的稳定性和可靠性。下面将详细介绍这些机制,并提供代码示例。