大数据 - overfit.cn

Spring Cloud Eureka：服务注册与发现

Spring Cloud Eureka是Spring Cloud Netflix 子项目的核心组件之一，主要用于微服务架构中的服务治理。本文将对搭建Eureka注册中心，搭建Eureka客户端，搭建Eureka集群及给Eureka注册中心添加登录认证进行介绍。在微服务架构中往往会有一个注册中心，每个

overfit同步小助手 2024-05-27 23:03:59 0 收藏

数据仓库内容分享(七)：Flink CDC 实现海量数据实时同步转换

在 Flink CDC 1.x 版本中，如果想实现 exactly-once 同步，需要配合 Flink 提供的 checkpoint 机制,全量阶段没有做切片，则只能在一个 checkpoint 里完成，这会导致一个问题：每个 checkpoint 中间要将这张表的全量数据吐给下游的 writer

overfit同步小助手 2024-05-27 23:03:56 0 收藏

Kafka 实现之消息及消息格式

Kafka 的消息格式是由消息的键和值组成的。每条消息都有一个可选的键和一个必选的值，它们都是字节数组。键和值可以是任意类型的数据，但在发送和接收消息时，它们需要被序列化为字节数组。在 Kafka 中，消息是以字节数组的形式进行传输和存储的。这种灵活的格式使得 Kafka 非常适合处理各种类型的数据

overfit同步小助手 2024-05-27 23:03:48 0 收藏

摸鱼大数据——Linux搭建大数据环境——安装无界面虚拟机

连接虚拟机: 文件 -> 快速连接 -> 主机名: 虚拟机的ip地址用户名:root -> 点击连接 -> 接受并保存 -> 输入密码:123456。6.右键node1 ->设置 -> CD/DVD(IDE) -> 使用ISO镜像文件 -> 浏览 -> 选择本机提前准备好的iso镜像 -> 确定。

overfit同步小助手 2024-05-27 23:03:38 0 收藏

大数据---销售主题域开发

销售数据统计时分为两种情况一种时确认售卖成功的，售卖不成功线上业务设计配送问题，如果用户拒收，就相当于没有售卖成功根据售卖情况将主题域分为两部分核销真正售卖成功的核销主题售卖只要商品出货信息，考虑是否售卖成功售卖主题销售主题域分为核销主题售卖主题分层采用自下而上、基于需求、逐层分析出每一层

overfit同步小助手 2024-05-27 22:03:52 0 收藏

kafka事务的详解

即处于同一个事务内的所有消息，不管最终需要落地到哪个 topic 的哪个 partition, 最终结果都是要么全部写成功，要么全部写失败（Atomic multi-partition writes）；

overfit同步小助手 2024-05-27 21:03:49 0 收藏

csv数据导入hive表

overfit同步小助手 2024-05-27 21:03:42 0 收藏

RabbitMQ 安装保姆级教程

MQ(Message Quene) : 翻译为消息队列,通过典型的生产者和消费者模型,生产者不断向消息队列中生产消息，消费者不断的从队列中获取消息。因为消息的生产和消费都是异步的，而且只关心消息的发送和接收，没有业务逻辑的侵入,轻松的实现系统间解耦。别名为消息中间件通过利用高效可靠的消息传递机制进行

overfit同步小助手 2024-05-27 21:03:39 0 收藏

ERROR: KeeperErrorCode = ConnectionLoss for /hbase/master

很可能是因为没有启动hbse。

overfit同步小助手 2024-05-27 21:03:35 0 收藏

RabbitMQ（Docker 单机部署）

本文给大家介绍如何使用 Docker 单机部署 RabbitMQ 并与 SpringBoot 整合使用。

overfit同步小助手 2024-05-27 21:03:26 0 收藏

创建SpringBoot和RabbitMQ的整合项目

后面是消息的一些属性类似如我们的http协议中的request请求头的信息，包括消息的内容类型了，消息的内容编码了，消息的长度了等信息。这两个端口号特别容易搞错，千万要注意，如果配置文件里的端口号写15672，那么我们的idea里面的java程序就连接不上我们本地已经启动的rabbitmq服务器了

overfit同步小助手 2024-05-27 20:04:05 0 收藏

39 | 从0搭建基于Kafka的企业级实时日志流处理平台

今天要和你分享的主题是：从 0 搭建基于 Kafka 的企业级实时日志流处理平台。简单来说，我们要实现一些大数据组件的组合，就如同玩乐高玩具一样，把它们“插”在一起，“拼”成一个更大一点的玩具。在任何一个企业中，服务器每天都会产生很多的日志数据。这些数据内容非常丰富，包含了我们的以及。实时分析这些数

overfit同步小助手 2024-05-27 20:03:50 0 收藏

Delta lake with Java--利用spark sql操作数据1

代码主要实现建立一个表名为YellowTaxi，插入5条数据，然后查询YellowTaxi这5条数据，再建立一个表YellowTaxiPartitioned，YellowTaxiPartitioned是分区表。具体文字内容如下，从结果可以看出分区表的查询效率要比不分区表要好，后面建表还是要用分区表。

overfit同步小助手 2024-05-27 20:03:42 0 收藏

冗余磁盘阵列（RAID）与Hadoop分布式文件系统（HDFS）

介绍数据存储对于现代计算的重要性，并指出在不同的需求下，冗余磁盘阵列（RAID）和Hadoop分布式文件系统（HDFS）作为两种不同的数据存储技术各自的优势。

overfit同步小助手 2024-05-27 19:03:45 0 收藏

Hive-源码分析一条hql的执行过程

1、用户在hive客户端输入hql2、进行中断操作，终止正在运行的mr作业3、解析用户在hive客户端输入的hql（将hql按照字符一个一个处理，遇到 ";" 就会将前面的处理成一个hql 放入列表中）4、循环执行hql列表中的每一条hql5、从sql语句中剥离注释，并去掉头尾空白符并按照 '\\

overfit同步小助手 2024-05-27 19:03:22 0 收藏

【大数据】学习笔记

overfit同步小助手 2024-05-27 18:03:52 0 收藏

ubantu 22.04 安装 kafka 3.7.0

Ubuntu 22.04 LTS 上安装 Kafka 3.7.0

overfit同步小助手 2024-05-27 18:03:45 0 收藏

HDFS 跨集群数据同步（hive,hadoop）

echo "${db_name}.${table_name} ${part_date} 迁移开始"echo "${db_name}.${table_name} ${part_date} 迁移完成"两个不同的HDFS 集群数据迁移( A集群的数据 -> B 集群) 采用的是 SHELL 脚本。#计算两

overfit同步小助手 2024-05-27 18:03:42 0 收藏

Go操作Kafka之kafka-go

Kafka是一种高吞吐量的分布式发布订阅消息系统，本文介绍了如何使用kafka-go这个库实现Go语言与kafka的交互。Go社区中目前有三个比较常用的kafka客户端库 , 它们各有特点。首先是IBM/sarama（这个库已经由Shopify转给了IBM），之前我写过一篇使用sarama操作Kaf

overfit同步小助手 2024-05-27 18:03:27 0 收藏

PyFlink使用教程，Flink，Python，Java

overfit同步小助手 2024-05-27 17:03:59 0 收藏