大数据 - overfit.cn

Flink高手之路2-Flink集群的搭建

准备好数据文件上传hdfs首先要确保 hdfs 集群已经启动发现我们以前已经上传过了提交命令这个错误需要把flink-1.16.1与hadoop3进行集成。查看 flink web ui查看 hdfs web UI点击一个文件查看重启集群删除hdfs上以前创建的output文件夹提交任务，使用之前上

overfit同步小助手 2023-11-28 00:03:33 0 收藏

2023.11.8 hadoop 概述和发展, shell命令和服务启动命令

hdfs默认文件: https://hadoop.apache.org/docs/r3.3.4/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml。hdfs的shell命令概念: 安装好hadoop环境之后，可以执行类似于Linux的shell命令对文件

overfit同步小助手 2023-11-27 22:03:33 0 收藏

Spark 基础知识点

overfit同步小助手 2023-11-27 21:03:28 0 收藏

大数据入门到放弃第一天：linux的入门

linux保姆式安装

overfit同步小助手 2023-11-27 20:03:34 0 收藏

kerberos认证Flink的kafka connector和kafka client配置

flink-connector-kafka 和 kafka client 在kerberos连接方式

overfit同步小助手 2023-11-27 18:03:43 0 收藏

在Linux操作系统上安装 kafka

在启动Kafka broker之前，您需要先启动Zookeeper实例。您可以从官方网站（https://kafka.apache.org/downloads）上下载最新版本的Kafka。其中，your_host_name是您计算机的主机名，这将是Kafka broker公开的地址。Kafka是一个

overfit同步小助手 2023-11-27 17:03:49 0 收藏

分布式 - 消息队列Kafka：Kafka 消费者消费位移的提交方式

到目前为止，我们知道消息的拉取是根据poll（）方法中的逻辑来处理的，这个poll（）方法中的逻辑对于普通的开发人员而言是一个黑盒，无法精确地掌控其消费的起始位置。与消费者中的其他处理过程一样，自动提交也是在轮询循环中进行的。假设刚刚提交完一次消费位移，然后拉取一批消息进行消费，在下一次自动提交消费

overfit同步小助手 2023-11-27 17:03:12 0 收藏

Hadoop 之 Hbase 配置与使用（四）

Hbase 单机部署、伪集群、集群部署Java 连接 Hbase 集群测试

overfit同步小助手 2023-11-27 16:03:23 0 收藏

HBase高手之路4-Shell操作

describe '表名'注意：集群启动启动ZooKeeper启动hdfs启动HBASE进入shell命令行在HBase中，如果要对海量的数据进行扫描查询，尤其是全表扫描效率很低，可以使用过滤器Filter来提高查询的效率。过滤器Filter可以根据主键、列簇、列、版本号(时间戳)等条件对数据进行查

overfit同步小助手 2023-11-27 14:04:05 0 收藏

Kafka 常用命令

kafka常用命令1.TopicCommand1.1.Topic创建bin/kafka-topics.sh --create --bootstrap-server localhost:9092 --replication-factor 3 --partitions 3 --topic test 相关

overfit同步小助手 2023-11-27 14:04:00 0 收藏

大数据技术之Hive SQL题库-中级

overfit同步小助手 2023-11-27 14:03:51 0 收藏

es 索引迁移工具Elasticdump 安装及使用

es 索引迁移工具【Elasticdump 安装及使用】

overfit同步小助手 2023-11-27 14:03:32 0 收藏

从零到Kafka：万字带你体验Spring Boot整合消息驱动的奇妙之旅

在Kafka 中，可以自定义消息的序列化和反序列化过程，以便按照需求对消息进行定制化处理。一般来说，Kafka 使用的默认序列化器是基于字节数组的序列化和反序列化。但有时候为了处理更复杂的消息格式需要自定义序列化器来处理。在Kafka中，如果需要使用自定义的序列化器，可以实现接口。假设处理自定义的对

overfit同步小助手 2023-11-27 09:03:38 0 收藏

Hive复杂数据类型(array类型、map类型、struct类型)

一、array类型建表语句：create table 表名(要素1 类型，要素2 类型，要素3 array) row format delimited fileds terminated by '\t' collection items terminated by ',';

overfit同步小助手 2023-11-27 09:03:31 0 收藏

Flink timer定时器

flink为了保证定时触发操作(onTimer)与正常处理(processElement)操作的线程安全，做了同步处理，在调用触发时必须要获取到锁，也就是二者同时只能有一个执行，因此一定要保证onTimer处理的速度，以免任务发生阻塞。deleteEventTimeTimer(timestamp:

overfit同步小助手 2023-11-27 06:03:36 0 收藏

Java中配置RabbitMQ基本步骤

分别运行Producer和Consumer类的main方法，生产者将消息发送到RabbitMQ队列，消费者将从队列中接收并处理消息。创建一个消费者，用于从RabbitMQ队列中接收消息：4。

overfit同步小助手 2023-11-27 05:03:56 0 收藏

Kafka保证消息幂等以及解决方案

1、幂等的基本概念幂等简单点讲，就是用户对于同一操作发起的一次请求或者多次请求的结果是一致的，不会产生任何副作用。幂等分很多种，比如接口的幂等、消息的幂等，它是分布式系统设计时必须要考虑的一个方面。查询操作(天然幂等)查询一次和查询多次，在数据不变的情况下，查询结果是一样的。查询是天然的幂等操作删除

overfit同步小助手 2023-11-27 05:03:53 0 收藏

关于Hbase的一些问题

当MemStore中的数据达到一定大小阈值时，或者出发了一定的时间阈值，HBase会将该MemStore中的数据刷写到磁盘，生成一个新的Store文件。在HBase中，随着数据的写入和删除，会产生大量的小文件，这样对于查询操作会引入额外的磁盘寻址开销。Phoenix只是在HBase之上构建了SQL查

overfit同步小助手 2023-11-27 05:03:36 0 收藏

Spark---介绍及安装

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架，Spark拥有Hadoop MapReduce所具有的优点；但不同于MapR

overfit同步小助手 2023-11-27 05:03:19 0 收藏

Kafka 消费者重平衡机制详解

Kafka消费者是指从Kafka集群中读取消息的客户端应用程序。消费者使用Kafka提供的API来订阅一个或多个主题，然后从主题中拉取消息，并对消息进行处理。Kafka消费者能够以非常高效的方式读取海量、分布式的数据流，并将其转化为有用的业务实现。重平衡是指在消费者加入或离开消费者群组时，由消费者协

overfit同步小助手 2023-11-27 04:03:13 0 收藏