大数据 - overfit.cn

【Hive-小文件合并】Hive外部分区表利用Insert overwrite的暴力方式进行小文件合并

overfit同步小助手 2023-12-16 08:03:31 0 收藏

FlinkCDC实现主数据与各业务系统数据的一致性（瀚高、TIDB）

FlinkCDC实现业务系统主数据对应字段，用主数据系统主数据字段实时覆盖

overfit同步小助手 2023-12-16 07:03:30 0 收藏

2.FastRunner定时任务Celery+RabbitMQ

解决celery执行时报错：KeyError: 'async' 报错原因：Python3.6及以上版本和celebry4.0以上版本中async关键字发生冲突。python manage.py celery beat -l info 启动beat监听定时任务。1.安装rabbmitMQ中间件，并配

overfit同步小助手 2023-12-16 06:03:36 0 收藏

分布式数据恢复-hbase+hive分布式存储误删除如何恢复数据？

hbase+hive分布式存储数据恢复环境：16台某品牌R730XD服务器节点，每台物理服务器节点上有数台虚拟机，虚拟机上配置的分布式，上层部署hbase数据库+hive数据仓库。hbase+hive分布式存储故障&初检：数据库文件被误删除，数据库无法使用。通过现场对该分布式环境的初步检测，发现虚拟

overfit同步小助手 2023-12-16 05:03:08 0 收藏

【flink番外篇】1、flink的23种常用算子介绍及详细示例（3）-window、distinct、join等

1、Flink 专栏等系列综合文章链接本文主要介绍Flink 的10种常用的operator（window、distinct、join等）及以具体可运行示例进行说明.如果需要了解更多内容，可以在本人Flink 专栏中了解更新系统的内容。本文除了maven依赖外，没有其他依赖。本专题分为五篇，即：【f

overfit同步小助手 2023-12-16 04:03:48 0 收藏

spark dynamicAllocation详解及使用

动态资源分配策略在空闲时释放 Executor，繁忙时申请 Executor，虽然逻辑比较简单，但是和任务调度密切相关。它可以防止小数据申请大资源，Executor 空转的情况。在集群资源紧张，有多个 Spark 应用的场景下，可以开启动态分配达到资源按需使用的效果。

overfit同步小助手 2023-12-16 04:03:43 0 收藏

Hadoop学习笔记（HDP）-Part.14 安装YARN+MR

使用Yarn提交MapReduce任务的时候，中间结果会保存在HDFS，/user/username/，如果/user目录下用户目录下不存在，则被创建，当MR执行结束之后，中间结果会被删除，目录保留。因此需要在Ranger中对/user的权限做策略。

overfit同步小助手 2023-12-16 01:03:53 0 收藏

部署Kafka

overfit同步小助手 2023-12-16 01:03:43 0 收藏

为什么 Flink 抛弃了 Scala

Java的可移植性和跨平台性也是其受欢迎的原因之一。另外，Java社区的活跃程度也是不容忽视的，Java的开发者群体庞大且经验丰富，他们可以为Flink提供宝贵的支持和指导，从而帮助用户更好地使用和优化Flink的功能。随着时间的推移，Flink社区的主要焦点已经转向JavaAPI，而Flink中的

overfit同步小助手 2023-12-16 01:03:40 0 收藏

2023_Spark_实验二十一：Zookeeper单机安装与配置

Zookeeper单机模式linux部署

overfit同步小助手 2023-12-15 23:03:49 0 收藏

HBase Compaction 原理与线上调优实践

本文对 HBase Compaction 的原理、流程以及限流的策略进行了详细的介绍，列举了几个线上进行调优的案例，最后对 Compaction 的相关参数进行了总结。

overfit同步小助手 2023-12-15 22:03:52 0 收藏

【Sqoop】MySQL表导入Hive

用 Sqoop 将 MySQL 指定数据库指定的表导入Hive 的指定数据库。

overfit同步小助手 2023-12-15 21:03:46 0 收藏

Spark连接被拒绝导致启动报错问题解决

在解决该问题时，我们需要分析具体原因并采取相应的解决方案。然而，由于网络或安全策略等原因，可能会出现连接被拒绝的情况，导致Spark无法连接到所需的资源，从而引发启动报错问题。大数据处理框架Spark在进行任务提交及启动运行过程中可能会遇到连接被拒绝的情况，这会导致Spark启动报错。本文将介绍该问

overfit同步小助手 2023-12-15 20:03:52 0 收藏

PG14归档失败解决办法archiver failed on wal_lsn

overfit同步小助手 2023-12-15 20:03:31 0 收藏

轻松通关Flink第20讲：Flink 高级应用之海量数据高效去重

这一课时我们讲解了多种不同的 Flink 大数据下的去重方法，并且详细比较了它们的异同。在实际的业务场景中，精确去重和非精确去重需要灵活选择不同的方案，在准确性和效率上达到统一。点击这里下载本课程源码。

overfit同步小助手 2023-12-15 18:03:36 0 收藏

大数据Vue项目必备|Window下安装并使用nvm（含卸载node、卸载nvm、全局安装npm）

在Windows环境下，进行大数据Vue项目开发时，使用Node Version Manager（nvm）是一个必备工具。通过本文，可以轻松在Windows系统下配置和管理Node.js版本，确保项目的依赖关系得到正确满足。这对于大数据Vue项目和其它项目的部署的开发和运行是必要的。

overfit同步小助手 2023-12-15 18:03:33 0 收藏

【Flink实战】玩转Flink里面核心的Sink Operator实战

在Flink中，Sink Operator（也称为Sink Function或Sink）是指负责将DataStream或DataSet的数据发送到外部存储或外部系统的操作符。Sink Operator是Flink的数据输出端，它的作用是将处理过的数据写入目标位置，如数据库、文件系统、消息队列等。Si

overfit同步小助手 2023-12-15 18:03:16 0 收藏

2024上海智博会,上海国际智慧城市,物联网,大数据展会（世亚智博会）

overfit同步小助手 2023-12-15 17:03:30 0 收藏

CentOS 7 修改文件最大打开数 - 处理大数据

然而，默认情况下，CentOS 7的文件打开数限制可能会成为一个限制因素。为了允许更多的文件同时打开，我们可以通过调整操作系统的文件最大打开数来解决这个问题。本文将详细介绍如何在CentOS 7上修改文件最大打开数。希望本文能够帮助您在CentOS 7上成功修改文件最大打开数，以便更好地处理大数据任

overfit同步小助手 2023-12-15 14:03:44 0 收藏

python中导入pyspark中的sparkconf和sparkcontext错误

解决过程：通过everything软件快捷搜索磁盘找到pyspark目录，发现有conf.py和context.py两个文件，猜测与导入的包有关联，用pycharm打开conf.py发现在其中创建了Sparkconf的类。解决方法1：直接将将源py文件的from pyspark import Spa

overfit同步小助手 2023-12-15 13:03:51 0 收藏