大数据 - overfit.cn

Spark AQE 导致的 Driver OOM问题

因为原则上来说，如果没有开启AQE之前，一个SQL执行单元的是属于同一个Job的，开启了AQE之后，因为AQE的原因，一个Job被拆成了了多个Job，但是从逻辑上来说，还是属于同一个SQL处理单元的所以还是得归属到一次执行中。类在内存中存放着一个整个SQL查询链的所有stage以及stage的指标

overfit同步小助手 2024-05-28 18:03:55 0 收藏

centos7上安装MySQL并配置Hive

这里的jar包已经在前面下载MySQL的时候已经下载了，这里就移动到下载jar包的目录下进行jar包的解压。1.启动Hadoop的进行，hive是基于Hadoop的来进行搭建的，他的数据时存储在hdfs中的，元数据存储在MySQL中。4. 进入到hive后根据自己的版本选择所要下载的hive版本，这

overfit同步小助手 2024-05-28 18:03:47 0 收藏

python——spark使用

Spark使用Scala语言进行实现，能操作分布式数据集。Spark是在借鉴了MapReduce之上发展而来的，继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷。Spark的适用场景：1. 复杂的批量处理（Batch Data Processing），偏重点在于处理海量数据的能力，

overfit同步小助手 2024-05-28 17:03:46 0 收藏

Hadoop基本配置和运用

Hadoop基础

overfit同步小助手 2024-05-28 16:03:58 0 收藏

hadoop- yarn启动后用jps查看没有resourcemanager

overfit同步小助手 2024-05-28 16:03:54 0 收藏

rabbitMQ的基础操作与可视化界面

当你安装好RabbitMq时，可以尝试一下，这些命令。

overfit同步小助手 2024-05-28 16:03:48 0 收藏

(一)kafka实战——kafka源码编译启动

本节内容是关于kafka消息中间键的源码编译，并通过idea工具实现kafka服务器的启动，使用的kafka源码版本是3.6.1，由于kafka源码是通过gradle编译的，以及服务器是通过scala语言实现，我们要预先安装好gradle编译工具和scala环境，同时需要安装scala依赖的java

overfit同步小助手 2024-05-28 15:03:24 0 收藏

(图文并茂)基于CentOS-7搭建hadoop3.3.6大数据集群

安装虚拟机等很久没反应一般是需要按 Enter键确认进入安装界面。

overfit同步小助手 2024-05-28 14:03:58 0 收藏

通过docker部署zookeeper并启动

说明：-server zookeeper是启动zkCli.sh的参数。注：状态（STATUS）为Up，说明容器已经启动成功。默认摘取最新版本的zookeeper:latest。

overfit同步小助手 2024-05-28 14:03:47 0 收藏

Spark环境搭建和使用方法

本文讲解如何在Linux系统中安装Spark并配置Spark环境，以及Spark的基本使用方法。

overfit同步小助手 2024-05-28 14:03:37 0 收藏

任务：将数据传输在Hive（基于hadoop的数据库管理工具）,设置定时任务的各个步骤

平台已经做好基于模板对应的sheet的存储：其中在做好对应关系和字段之后在数据库表也实现了对应表的创建。tip：一般在ods存储实时表，然后在dwd里面存储对应的处理过的宽表（组合起来可能包括很多字段）表有多个字段，每个字段的名称和类型都被列出。... ：定义表的存储格式和I/O格式。：定义表在HD

overfit同步小助手 2024-05-28 14:03:32 0 收藏

Kafka之集群搭建

单机服务下，Kafka已经具备了非常高的性能。TPS能够达到百万级别。但是，在实际工作中使用时，单机搭建的Kafka会有很大的局限性。因此，我们需要使用集群。

overfit同步小助手 2024-05-28 13:03:38 0 收藏

Kafka介绍、安装以及操作

Kafka介绍、安装和操作

overfit同步小助手 2024-05-28 11:03:56 0 收藏

kafka基本原理及消费配置

由于该文件采用的是稀疏索引的方式存储着相对offset及对应message物理偏移量的关系，所以直接找相对offset为5的索引找不到，这里同样利用二分法查找相对offset小于或者等于指定的相对offset的索引条目中最大的那个相对offset，所以找到的是相对offset为4的这个索引。一个典型

overfit同步小助手 2024-05-28 10:03:25 0 收藏

Hadoop、HDFS、Hive、Hbase区别及联系

Hadoop、HDFS、Hive和HBase是大数据生态系统中的关键组件，它们都是由Apache软件基金会管理的开源项目。下面将深入解析它们之间的区别和联系。

overfit同步小助手 2024-05-28 09:03:49 0 收藏

hive学习笔记之十一：UDTF(1)

/ 第二列的inspector类型为string型// 第三列的列名// 第三列的inspector类型为string型。

overfit同步小助手 2024-05-28 09:03:32 0 收藏

17、Flink 的 Checkpointing 配置详解

Flink 的 Checkpointing 配置详解

overfit同步小助手 2024-05-28 08:03:39 0 收藏

FLINK SQL 1.17.1读取KAFKA数据，实时计算后写入MYSQL

为了后续搭建实时数据做准备，测试使用FLINK SQL实时读取KAFKA数据，通过实时计算后，写入MYSQL。原始数据为仿造的保单表和险种表的数据，在kafka中创建两张贴源层表：保单表和险种表，再建一张关联表和一张汇总表，然后将数据写入mysql。

overfit同步小助手 2024-05-28 07:03:51 0 收藏

如何基于Zookeeper实现注册中心模型？

在分布式系统中，通常会存在几十个甚至上百个服务，开发人员可能甚至都无法明确系统中到底有哪些服务正在运行。另一方面，我们很难同时确保所有服务都不出现问题，也很难保证当前的服务部署方式不做调整和优化。由于自动扩容、服务重启等因素，服务实例的运行时状态也会经常变化。通常，我们把这些服务实例的运行时状态信息

overfit同步小助手 2024-05-28 07:03:40 0 收藏

最新版Flink CDC MySQL同步MySQL（一）_flink 连接mysql