大数据 - overfit.cn

RabbitMQ详解（三）：消息模式（fanout、direct、topic、work）

消息模式详解

overfit同步小助手 2023-09-16 19:03:26 0 收藏

Flink CDC 基于mysql binlog 实时同步mysql表

环境说明：flink1.15.2mysql 版本5.7 注意：需要开启binlog，因为增量同步是基于binlog捕获数据windows11 IDEA 本地运行先上官网使用说明和案例：MySQL CDC Connector — Flink CDC documentation1. mysql开启bi

overfit同步小助手 2023-09-16 18:04:09 0 收藏

Flink-多流转换(Union、Connect、Join)

对于连接流 ConnectedStreams 的处理操作，需要分别定义对两条流的处理转换，因此接口中就会有两个相同的方法需要实现，用数字“1”“2”区分，在两条流中的数据到来时分别调用。关于两条流的连接，还有一种比较特殊的用法：DataStream 调用.connect()方法时，传入的参数也可以不

overfit同步小助手 2023-09-16 17:04:06 0 收藏

解决Linux root用户设置ssh免密登陆后仍然需要输入密码的问题

搭建hadoop集群后,设置ssh免密登录发现还是一直需要输入密码,简直是烦死了,很明显就是ssh免密登录没有设置好.出现该问题有很多原因,比如ssh配置不对或者路径权限不对等等。

overfit同步小助手 2023-09-16 17:03:45 0 收藏

借助KafkaTool在海量Kafka数据快速精准定位/查询目标数据

如何在海量的Kafka数据定位/查询精准到秒级的数据？

overfit同步小助手 2023-09-16 16:03:50 0 收藏

手搓消息队列【RabbitMQ版】

阻塞队列（Blocking Queue）-> 生产者消费者模型（是在一个进程内）所谓的消息队列，就是把阻塞队列这样的数据结构，单独提取成了一个程序，进行独立部署~ --------> 生产者消费模型（进程和进程之间/服务和服务之间）解耦合本来有个分布式系统，A服务器调用 B服务器（A给B发请求

overfit同步小助手 2023-09-16 12:04:10 0 收藏

PHP小白搭建Kafka环境以及初步使用rdkafka

提示：windows环境安装失败，Linux环境安装成功（以下并没有windows安装示例）

overfit同步小助手 2023-09-16 10:03:52 0 收藏

大数据系列教程之 Kafka基础

Kafka 是一个分布式的基于发布 / 订阅模式的消息队列（Message Queue），主要应用于大数据实时处理领域。Kafka 0.9 版本以前，offset 存储在 Zookeeper，0.9 版本后，默认将 offset 存储在 Kafka 的一个内置的 topic 中。除此之外，Kafka

overfit同步小助手 2023-09-16 09:03:59 0 收藏

数据分片技术及其在HBase中的应用

HBase是一个开源的分布式NoSQL数据库系统，可以用于海量结构化和半结构化的数据存储。相比于传统的关系型数据库系统，HBase在很多方面都优秀，例如高速读写、高容错性和动态伸缩等，但同时也存在一些不足。比如它的查询延迟较长，因为它需要多次随机IO来定位数据并进行数据合并，并且由于存在数据拆分导致

overfit同步小助手 2023-09-16 09:03:42 0 收藏

rabbitmq+springboot实现幂等性操作

举个例子：一个消息M发送到了消息中间件，消息投递到了消费程序A，A接受到了消息，然后进行消费，但在消费到一半的时候程序重启了，这时候这个消息并没有标记为消费成功，这个消息还会继续投递给这个消费者，直到其消费成功了，消息中间件才会停止投递。我们利用消息id来判断消息是否已经消费过，如果该信息被消费过，

overfit同步小助手 2023-09-16 09:03:19 0 收藏

kettle的简单示例:实现数据定时推送和监测,并发送异常报告邮件

当出现不符合要求的异常数据时，能尽早提醒管理员及时处理。创建了转换后，就需要创建作业，作业的目的是可以配置定时计划，组合多个已建好的“转换”，形成工作流，并自动执行。控件1，“脚本”-》“执行SQL脚本”控件，命名“清空用户表数据”，意为将要推送的目标表原数据先清空。控件3，“输出”-》“插入\更新

overfit同步小助手 2023-09-16 05:03:44 0 收藏

Hadoop集群部署-（完全分布式模式，hadoop-2.7.4）

查看网络IP，确定各个主机IP对应是否正确，并测试能否连接外网。

overfit同步小助手 2023-09-16 05:03:28 0 收藏

Springboot整合HBase

Data。

overfit同步小助手 2023-09-16 01:03:48 0 收藏

Linux 虚拟机安装 hadoop

中添加如下内容。在中添加如下内容。在中添加如下内容。在

overfit同步小助手 2023-09-16 00:03:54 0 收藏

【云原生】Docker—Dockerfile写法与用法以及dockerfile简介与构建镜像详解【附加实战】

🥳我们可以用dockerfile自定义写需要的操作，来用dockerfile的指令来实现，最终采用docker build来构建镜像，构建完镜像可以采用docker save 命令打成tar包，以便于日后在其他服务器上使用，也可以采用docker push提交到私有镜像仓库或dockerhub中

overfit同步小助手 2023-09-15 22:04:14 0 收藏

【2023最全kafka面试和答案】

LSO:Last Stable Offset 对未完成的事务而言，LSO 的值等于事务中第一条消息的位置(firstUnstableOffset)，对已完成的事务而言，它的值同 HW 相同。HW:High Watermark 高水位，取一个partition对应的ISR中最小的LEO作为HW，con

overfit同步小助手 2023-09-15 22:04:07 0 收藏

Logstash数据同步

2. 在 /usr/local/logstash-7.6.2/ 下创建文件夹 sync/，将数据库驱动 mysql-connector-java-5.1.41.jar 包上传到 /usr/local/logstash-7.6.2/sync/ 下，将其放入 /usr/local/logstash-

overfit同步小助手 2023-09-15 18:04:12 0 收藏

【大数据】hadoop运行环境搭建（搭建如此简单）

首先准备好工具。下载好最新的VMware Workstation，CentorOS 7运行Linux，建议Linux桌面标准版，且创建好一个用户模板机一定要按照步骤做好准备，避免遗漏，否则一台一台改超级麻烦。搭建hadoop运行环境！！

overfit同步小助手 2023-09-15 16:03:57 0 收藏

Flink三种模式介绍&集群的搭建

Flink、Flink集群的搭建、Flink三种部署模式、会话模式、单作业模式、应用模式

overfit同步小助手 2023-09-15 15:04:08 0 收藏

6道常见hadoop面试题及答案解析

Hadoop生态系统，拥有15多种框架和工具，如Sqoop，Flume，Kafka，Pig，Hive，Spark，Impala等，以便将数据摄入HDFS，在HDFS中转移数据（即变换，丰富，聚合等），并查询来自HDFS的数据用于商业智能和分析。具有数据的元数据，但也允许指定用于读取文件的独立模式。基

overfit同步小助手 2023-09-15 15:04:03 0 收藏