大数据 - overfit.cn

zookeeper

ZooKeeper是一个开放源码的分布式应用程序协调服务，主要为了解决分布式架构下数据一致性问题，典型的应用场景有分布式配置中心、分布式注册中心、分布式锁、分布式队列、集群选举、分布式屏障、发布/订阅等场景。一次性：一个Watch事件是一个一次性的触发器。一次性触发，客户端只会收到一次这样的信息。异

overfit同步小助手 2023-09-04 04:04:17 0 收藏

三种SQL实现聚合字段合并（presto、hive、mysql）

类SQL实现聚合字段合并

overfit同步小助手 2023-09-04 04:03:44 0 收藏

【大数据】Flink 详解（三）：核心篇 Ⅱ

使用嵌入式的本地数据库 RocksDB 将流计算数据状态存储在本地磁盘中，不会受限于 TaskManager 的内存大小，在执行检查点的时候，再将整个 RocksDB 中保存的 State 数据全量或者增量持久化到配置的文件系统中，在 JobManager 内存中会存储少量的检查点元数据。除了对 S

overfit同步小助手 2023-09-04 03:04:24 0 收藏

Iceberg从入门到精通系列之二：Iceberg集成Hive

Hive的元数据服务是一种存储和管理Hive表格和数据定义的中央服务，它允许用户定义表格、分区和桶等元数据信息，并将其存储在Hive元数据存储库中。因此，内部表和外部表的主要区别在于数据和元数据的存储位置和管理方式。内部表由Hive管理数据和元数据，而外部表只由Hive管理元数据，实际的存储数据由外

overfit同步小助手 2023-09-03 21:04:45 0 收藏

Django操作RabbitMQ

在本文中，我们介绍了如何在Django中使用RabbitMQ来发布和消费消息。RabbitMQ的强大功能和易于使用的API使得它成为了一个非常有用的工具，可以帮助应用程序处理大规模的并发请求。RabbitMQ提供了Windows、Linux和MacOS的软件包，因此你可以根据自己的操作系统下载相应的

overfit同步小助手 2023-09-03 21:04:27 0 收藏

Kafka的下载安装以及使用

kafka安装与使用

overfit同步小助手 2023-09-03 21:04:12 0 收藏

恢复HDFS上误删除的文件

HDFS 为我们提供了垃圾箱的功能，也就是说当我们执行 hadoop fs -rmr xxx命令之后，文件并不是马上被删除，而是会被移动到，等到一定的时间后才会执行真正的删除操作。从上面的例子中可以看出，在我们删了 test.txt 文件之后，文件被移到路径下，如果这个操作属于误操作，我们则可以到

overfit同步小助手 2023-09-03 19:04:14 0 收藏

【Kafka】第一章

Kafka传统定义：Kafka是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于大数据实时处理领域。======>什么是分布式简单来说，分布式就是将一个大问题拆分成多个小问题，逐一解决，最终协同合作，而将多个系统协同合作完成一个特定任务，支持分布式处理的软件系统，

overfit同步小助手 2023-09-03 19:03:53 0 收藏

MQ - 闲聊MQ一二事儿（Kafka、RocketMQ 、Pulsar ）

ookeeper 是 cp 强一致架构的一种，其内部使用 zab 算法，进行信息同步和容灾，在信息量较小的情况下，性能较好，当信息交互变多，因为同步带来的性能损耗加大，性能和吞吐量降低。kafka 的整体性能收到了 topic 数量的限制，这和底层的存储有密不可分的关系，我们上面讲过，当消息来的时候

overfit同步小助手 2023-09-03 17:03:58 0 收藏

基于 kRaft 搭建单机 kafka 测试环境

使用 docker-compose 在单机搭建有三个节点的 kafka 集群。

overfit同步小助手 2023-09-03 15:04:10 0 收藏

Flink多流处理之Broadcast(广播变量)

broadcast使用

overfit同步小助手 2023-09-03 12:04:15 0 收藏

【docker】docker安装带ui界面的kafka

使用docker-compose 一键安装kafka和kafka-ui界面

overfit同步小助手 2023-09-03 12:04:00 0 收藏

遥感云大数据在灾害、水体与湿地领域典型案例实践及GPT模型应用

overfit同步小助手 2023-09-03 11:04:23 0 收藏

Hbase drop 表卡住没有响应

在 Master UI 主页的 Procedures & Locks 菜单栏下，在页面标题中列出了所有正在进行的 Procedure 和 Locks，以及当前的 Master Procedure WALs；Procedure 和 Locks 的列表也可以通过 hbase shell 获得: list

overfit同步小助手 2023-09-03 11:04:18 0 收藏

flink postgresql cdc实时同步（含pg安装配置等）

flink postgresql cdc实时同步，含pg安装配置等

overfit同步小助手 2023-09-03 09:04:17 0 收藏

Java操作Zookeeper节点

overfit同步小助手 2023-09-03 07:04:05 0 收藏

Hive架构图

hive1

overfit同步小助手 2023-09-03 06:04:21 0 收藏

kafka复习：（17）seekToBeginning的用法

从分区的开始进行消费，因为kafka会定期清理历史数据，所以分区开始的位移不一定为0。seekToBeginning只是从目前保留的数据中最小的offset进行消费。

overfit同步小助手 2023-09-03 06:04:15 0 收藏

DataX简介、部署、原理和使用介绍

DataX 是阿里云 DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(

overfit同步小助手 2023-09-03 04:04:11 0 收藏

Kafka 集群搭建过程

跟着尚硅谷海哥文档搭建的Kafka集群环境，在此记录一下，侵删注意：博主在服务器上搭建环境的时候使用的是一个服务器，所以这篇博客可能会出现一些xsync分发到其他服务器时候的错误，如果你在搭建的过程中出现了错误，欢迎评论来访，我们一起解决。尚硅谷大数据Hadoop教程，hadoop3.x搭建到集群调

overfit同步小助手 2023-09-03 04:04:02 0 收藏