大数据-玩转数据-Flink 海量数据实时去重

布隆过滤器的原理是,当一个元素被加入集合时,通过K个散列函数将这个元素映射成一个位数组中的K个点,把它们置为1。布隆过滤器的原理是,当一个元素被加入集合时,通过K个散列函数将这个元素映射成一个位数组中的K个点,把它们置为1。2.只能插入和查询元素,不能删除元素,这与产生假阳性的原因是相同的。假阳性的

解决Kafka新消费者组导致重复消费的问题

通过使用唯一的消费者组ID、利用Kafka的消费者组协调器或手动管理消费者偏移量,我们可以避免重复消费并确保消息的正常处理。无论是使用唯一的消费者组ID、利用Kafka的消费者组协调器,还是手动管理消费者偏移量,都需要根据团队的实际情况来进行选择和配置。如果我们使用相同的消费者组ID,Kafka会将

Windows安装Hadoop3.x及在Windows环境下本地开发

在Windows环境下安装与配置Hadoop3.x版本,以及在Windows环境下结合Hadoop环境进行本地开发。

如何做 Kafka 的性能测试

如何做 Kafka 的性能测试

Kafka 之生产者与消费者基础知识:基本配置、拦截器、序列化、分区器

自定义生产者拦截器类需要继承 org.apache.kafka.clients.producer.ProducerInterceptor,并实现其中的方法:onSend(ProducerRecord record)是发送消息之前的切面方法;onAcknowledgement(RecordMetada

Kafka中的leader选举算法Raft

Apache Kafka是一种流行的分布式消息队列系统,它被广泛用于解决现代应用程序中的数据传输问题。它支持高吞吐量和低延迟,可通过多个生产者分区、消费者组和分区复制实现高可靠性分布式系统。在Kafka集群中,每个分区都有一个Leader节点,负责处理该分区所有的读写请求。Leader节点会通过Zo

Hive内部表(管理表)和外部表的区别【重点】

一、内部表和外部表的区别: 内部表和外部表的区别可以从三方面讨论,创建表时、删除表时、选择表时: ...

ElasticSearch分页查询

注意:使用search after分页from必须为0或-1,或者不填,排序的选项必须唯一,可以根据多个条件来排序,也可以根据pit来做search_after条件做排序,不然分页查询会漏数据,下次查询的search after的值为上次查询最后一个sort的值。当我们请求结果的第1页(结果从 1

demo(三)eureka&ribbon&hystrix----服务降级熔断

1、雪崩: 多个微服务之间调用的时候,假如微服务A调用微服务B和微服务C,微服务B和微服务C又调用其他的微服务,这就是所谓的"扇出"。服务出现故障时,给故障服务降级到事先准备好的故障处理结果,将此结果返回给服务消费者,如:客户端访问服务1,服务1调用服务2,服务2出现故障,Hystrix服务降级,返

spark3.3.x处理excel数据

ps:刚开始用的3.3.3_0.20.1这个版本的不可用,具体报啥错忘了,降到3.3.1_0.18.5该版本正常。2、使用自定义schema(该方法如果excel文件第一行不是所需数据,需手动限制读取的数据范围)1、直接使用excel文件第一行作为schema。或项目里配置pom.xml。

基于Hadoop大数据技术和协同过滤算法的就业推荐系统

基于Hadoop大数据技术和协同过滤算法的就业推荐系统

6 Hive引擎集成Apache Paimon

想要在Hive中操作Paimon,首先需要在Hive中配置Paimon的依赖,此时我们需要用到一个jar包:paimon-hive-connector。

第1关:Hive 的 Alter Table 操作

Alter 表/列第1关:Hive 的 Alter Table 操作

spark的安装与部署

为了避免MapReduce框架中多次读写磁盘带来的消耗,以及更充分地利用内存,加州大学伯克利分校的AMP Lab提出了一种新的、开源的、类Hadoop MapReduce的内存编程模型Spark。一、spark是什么?Spark是一个基于内存的大数据并行处理框架,其最初由加州大学伯克利分校的AMP

Apache Spark 的基本概念和在大数据分析中的应用

Apache Spark 是一个基于内存的分布式计算框架,旨在处理大规模数据集。它通过提供高效的数据处理和分析功能,帮助用户快速处理大量数据,并提供实时和批量数据处理。在本文中,我们将探讨 Apache Spark 的基本概念以及在大数据分析中的应用。

【入门Flink】- 10基于时间的双流联合(join)

Flink基于时间的双流联合

Zookeeper详解

提供的服务包括:统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等。Zookeeper 是一个开源的分布式的,为分布式框架提供协调服务的 Apache项目。(1)一般要求一个集群中,所有节点的配置信息是一致的,比如。(2)对配置文件修改后,希望能够快速同步到各个节点上。,整

Spring Boot进阶(89):Spring Boot和Zookeeper搭建分布式系统,提高系统可靠性

Spring Boot和Zookeeper搭建分布式系统,提高系统可靠性!等你来学

python汽车大数据分析可视化系统【计算机毕业设计】大数据 (含源码)建议收藏

python汽车大数据分析可视化系统【计算机毕业设计】大数据 (含源码)建议收藏

Prometheus监控指标查询性能调优

01 背景在《SRE: Google运维解密》一书中作者指出,监控系统需要能够有效的支持白盒监控和黑盒监控。黑盒监控只在某个问题目前正在发生,并且造成了某个现象时才会发出紧急警报。“白盒监控则大量依赖对系统内部信息的检测,如系统日志、抓取提供指标信息的 HTTP 节点等。白盒监控系统因此可以检测到即

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈