大数据 - overfit.cn

什么是Flink CDC，以及如何使用

数据库中的CDC（Change Data Capture，变更数据捕获）是一种用于实时跟踪数据库中数据变化的技术。CDC的主要目的是在数据库中捕获增量数据，以便在需要时可以轻松地将这些数据合并到其他系统或应用程序中。CDC在数据库管理、数据同步、数据集成和数据备份等方面具有广泛的应用。CDC通常通过

overfit同步小助手 2023-07-12 03:04:24 0 收藏

hadoop报错ERROR: Cannot set priority of namenode process

overfit同步小助手 2023-07-12 02:04:25 0 收藏

20个大数据可视化大屏模板（评论区附源码）

下载到本地后，直接运行文件夹中的index.html，即可看到大屏。以下是部分截图，大家根据自己的需要去获取吧。01 智慧物流服务中心02.大数据分析系统主要图表：地图、饼图、柱状图等。附源码，有需求的同志们，可以点赞，留言获取，因为还没研究好，如果自己可以下载！！......

overfit同步小助手 2023-07-12 02:04:14 0 收藏

python 创建和使用线程池

众所周知，python3多线程有threading，很好的支持了多线程，那么问题来了，为什么还需要线程池呢，其实很好回答，如果你要爬取网站有八百页，每页设置一个线程，难道能开启八百个么，光切换的时间也很高了吧。这时候就需要用到线程池，可以设置一个20的线程池，同时只有20个县城在运行，剩下的排队。直

overfit同步小助手 2023-07-12 01:04:24 0 收藏

Hadoop部署本地模式

本地模式，即运行在单台机器上。没有分布式的思想，使用的是本地文件系统。使用本地模式主要是用于对MapReduce的程序的逻辑进行调试，确保程序的正确性。由于在本地模式下测试和调试MapReduce程序较为方便，因此，这种模式适合用在开发阶段。上传JDK安装包到指定的路径。上传Hadoop到指定的

overfit同步小助手 2023-07-11 23:04:17 0 收藏

数据仓库基础知识

数据仓库基础知识介绍

overfit同步小助手 2023-07-11 21:04:25 0 收藏

HDFS文件系统创建和删除文件

overfit同步小助手 2023-07-11 20:04:36 0 收藏

Centos6系统中yum源的配置

在file-other-select a wizard中创建MapReduce项目。在编辑区-run as- run configuration。在hdfs中的output子目录下查看输出文件。2022年10月10日08:49:17。

overfit同步小助手 2023-07-11 18:04:48 0 收藏

Flink中常用的去重方案

将数据保存到状态中，进行累计。

overfit同步小助手 2023-07-11 18:04:07 0 收藏

个人电脑windows装青龙面板,本地运行,无需服务器，本人亲测成功

overfit同步小助手 2023-07-11 17:04:41 0 收藏

jar包获取resource下配置文件路径

我们在代码里可以这样写但是打成jar包后就不行了,我们有很多方法获取jar包路径或者resource下文件路径但是打印后你会发现路径里面带！，此时就算你去掉！也不行就算把路径copy到linux，用cat命令也显示文件不合法，猜测打包之后的jar就是无法获取的但是我们可以读取文件，然后写入固定路径

overfit同步小助手 2023-07-11 17:04:33 0 收藏

1、apache-hive-3.1.2简介及部署（三种部署方式-内嵌模式、本地模式和远程模式）及验证详解

Apache Hive是一款建立在Hadoop之上的开源数据仓库系统，可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表，基于表提供了一种类似SQL的查询模型，称为Hive查询语言（HQL），用于访问和分析存储在Hadoop文件中的大型数据集。Hive核心是将HQL转换为Ma

overfit同步小助手 2023-07-11 17:04:09 0 收藏

flink开发常见问题 —— flink-kafka 依赖版本冲突问题

flink kafka 连接配置项目总结

overfit同步小助手 2023-07-11 13:04:10 0 收藏

解决本地使用Dbeaver工具连接Hive报错问题

主要讲述本地使用Dbeaver工具如何成功连接linux服务器端hive的过程描述；

overfit同步小助手 2023-07-11 12:04:23 0 收藏

RabbitMQ手动ACK与死信队列

overfit同步小助手 2023-07-11 12:03:59 0 收藏

Flink Hudi DataStream API代码示例

总结Flink通过DataStream API读写Hudi Demo示例，主要是自己备忘用。最开始学习Flink时都是使用Flink SQL,所以对于Flink SQL读写Hudi比较熟悉。但是对于写代码实现并不熟悉，而有些需求是基于Flink代码实现的，所以需要学习总结一下。仅为了实现用代码读写H

overfit同步小助手 2023-07-11 10:04:26 0 收藏

数据仓库重点

数据仓库是决策支持系统（dss）和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性，用于支撑管理决策。数据仓库存在的意义在于对企业的所有数据进行汇总，为企业各个部门提供统一的、规范的数据出口。其中的。

overfit同步小助手 2023-07-11 09:04:20 0 收藏

k8s kafka部署实战

使用 k8s 提供的命令行工具 kubectl 创建 Kafka Service，将 Kafka 集群暴露在 k8s 集群外部。使用 Kafka 提供的命令行工具来测试 Kafka部署后，可以使用 Kafka 提供的命令行工具来测试 Kafka 是否正常工作。这个文件定义了一个 Service，将

overfit同步小助手 2023-07-11 05:04:12 0 收藏

spark-md5根据文件内容生成hash

overfit同步小助手 2023-07-11 04:04:18 0 收藏

SparkSql数组操作的N种骚气用法

总结一下sparksql（基于branch3.3）中 array操作相关的骚气用法，这恐怕是总结的最全的一篇了，哈哈~~

overfit同步小助手 2023-07-11 03:03:47 0 收藏