大数据 - overfit.cn

大数据-玩转数据-Flink 海量数据实时去重

布隆过滤器的原理是，当一个元素被加入集合时，通过K个散列函数将这个元素映射成一个位数组中的K个点，把它们置为1。布隆过滤器的原理是，当一个元素被加入集合时，通过K个散列函数将这个元素映射成一个位数组中的K个点，把它们置为1。2.只能插入和查询元素，不能删除元素，这与产生假阳性的原因是相同的。假阳性的

overfit同步小助手 2023-11-24 07:03:40 0 收藏

解决Kafka新消费者组导致重复消费的问题

通过使用唯一的消费者组ID、利用Kafka的消费者组协调器或手动管理消费者偏移量，我们可以避免重复消费并确保消息的正常处理。无论是使用唯一的消费者组ID、利用Kafka的消费者组协调器，还是手动管理消费者偏移量，都需要根据团队的实际情况来进行选择和配置。如果我们使用相同的消费者组ID，Kafka会将

overfit同步小助手 2023-11-24 07:03:35 0 收藏

Windows安装Hadoop3.x及在Windows环境下本地开发

在Windows环境下安装与配置Hadoop3.x版本，以及在Windows环境下结合Hadoop环境进行本地开发。

overfit同步小助手 2023-11-24 07:03:16 0 收藏

如何做 Kafka 的性能测试

overfit同步小助手 2023-11-24 07:03:13 0 收藏

Kafka 之生产者与消费者基础知识：基本配置、拦截器、序列化、分区器

自定义生产者拦截器类需要继承 org.apache.kafka.clients.producer.ProducerInterceptor，并实现其中的方法：onSend(ProducerRecord record)是发送消息之前的切面方法；onAcknowledgement(RecordMetada

overfit同步小助手 2023-11-24 06:03:32 0 收藏

Kafka中的leader选举算法Raft

Apache Kafka是一种流行的分布式消息队列系统，它被广泛用于解决现代应用程序中的数据传输问题。它支持高吞吐量和低延迟，可通过多个生产者分区、消费者组和分区复制实现高可靠性分布式系统。在Kafka集群中，每个分区都有一个Leader节点，负责处理该分区所有的读写请求。Leader节点会通过Zo

overfit同步小助手 2023-11-24 05:03:52 0 收藏

Hive内部表（管理表）和外部表的区别【重点】

一、内部表和外部表的区别：内部表和外部表的区别可以从三方面讨论，创建表时、删除表时、选择表时： ...

overfit同步小助手 2023-11-24 05:03:49 0 收藏

ElasticSearch分页查询

注意：使用search after分页from必须为0或-1，或者不填，排序的选项必须唯一，可以根据多个条件来排序，也可以根据pit来做search_after条件做排序，不然分页查询会漏数据，下次查询的search after的值为上次查询最后一个sort的值。当我们请求结果的第1页（结果从 1

overfit同步小助手 2023-11-24 04:03:30 0 收藏

demo(三)eureka&ribbon&hystrix----服务降级熔断

1、雪崩：多个微服务之间调用的时候，假如微服务A调用微服务B和微服务C，微服务B和微服务C又调用其他的微服务，这就是所谓的"扇出"。服务出现故障时，给故障服务降级到事先准备好的故障处理结果，将此结果返回给服务消费者，如：客户端访问服务1，服务1调用服务2，服务2出现故障，Hystrix服务降级，返

overfit同步小助手 2023-11-24 03:03:46 0 收藏

spark3.3.x处理excel数据

ps:刚开始用的3.3.3_0.20.1这个版本的不可用，具体报啥错忘了，降到3.3.1_0.18.5该版本正常。2、使用自定义schema（该方法如果excel文件第一行不是所需数据，需手动限制读取的数据范围）1、直接使用excel文件第一行作为schema。或项目里配置pom.xml。

overfit同步小助手 2023-11-24 03:03:33 0 收藏

基于Hadoop大数据技术和协同过滤算法的就业推荐系统

overfit同步小助手 2023-11-24 02:03:48 0 收藏

6 Hive引擎集成Apache Paimon

想要在Hive中操作Paimon，首先需要在Hive中配置Paimon的依赖，此时我们需要用到一个jar包：paimon-hive-connector。

overfit同步小助手 2023-11-24 00:03:35 0 收藏

第1关：Hive 的 Alter Table 操作

Alter 表/列第1关：Hive 的 Alter Table 操作

overfit同步小助手 2023-11-23 23:03:21 0 收藏

spark的安装与部署

为了避免MapReduce框架中多次读写磁盘带来的消耗，以及更充分地利用内存，加州大学伯克利分校的AMP Lab提出了一种新的、开源的、类Hadoop MapReduce的内存编程模型Spark。一、spark是什么？Spark是一个基于内存的大数据并行处理框架，其最初由加州大学伯克利分校的AMP

overfit同步小助手 2023-11-23 22:03:43 0 收藏

Apache Spark 的基本概念和在大数据分析中的应用

Apache Spark 是一个基于内存的分布式计算框架，旨在处理大规模数据集。它通过提供高效的数据处理和分析功能，帮助用户快速处理大量数据，并提供实时和批量数据处理。在本文中，我们将探讨 Apache Spark 的基本概念以及在大数据分析中的应用。

overfit同步小助手 2023-11-23 22:03:18 0 收藏

【入门Flink】- 10基于时间的双流联合（join）

Flink基于时间的双流联合

overfit同步小助手 2023-11-23 20:03:48 0 收藏

Zookeeper详解

提供的服务包括：统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等。Zookeeper 是一个开源的分布式的，为分布式框架提供协调服务的 Apache项目。（1）一般要求一个集群中，所有节点的配置信息是一致的，比如。(2）对配置文件修改后，希望能够快速同步到各个节点上。，整

overfit同步小助手 2023-11-23 20:03:38 0 收藏

Spring Boot进阶(89)：Spring Boot和Zookeeper搭建分布式系统，提高系统可靠性

Spring Boot和Zookeeper搭建分布式系统，提高系统可靠性！等你来学

overfit同步小助手 2023-11-23 20:03:33 0 收藏

python汽车大数据分析可视化系统【计算机毕业设计】大数据（含源码）建议收藏

overfit同步小助手 2023-11-23 18:03:48 0 收藏

Prometheus监控指标查询性能调优

01 背景在《SRE: Google运维解密》一书中作者指出，监控系统需要能够有效的支持白盒监控和黑盒监控。黑盒监控只在某个问题目前正在发生，并且造成了某个现象时才会发出紧急警报。“白盒监控则大量依赖对系统内部信息的检测，如系统日志、抓取提供指标信息的 HTTP 节点等。白盒监控系统因此可以检测到即

overfit同步小助手 2023-11-23 16:03:51 0 收藏