大数据 - overfit.cn

基于flink&hudi批流一体技术

Hudi是Hadoop Updates and Incrementals的简写，它是由Uber开发并开源的Data Lakes解决方案。Hudi 用于管理的数据库层上构建具有增量数据管道的流式数据湖，同时针对湖引擎和常规批处理进行了优化。简言之，Hudi是一种针对分析型业务的、扫描优化的数据存储抽象

overfit同步小助手 2024-06-01 13:03:39 0 收藏

毕业设计：python全国天气气象数据爬取分析可视化系统+大屏+大数据（源码+文档

（6）数据采集页面。

overfit同步小助手 2024-06-01 11:04:29 0 收藏

hadoop格式化失败-拒绝连接

以上就是今天要讲的内容，本文仅仅简单介绍了格式化失败-拒绝连接的原因及解决办法，本文搭建的是hadoop的高可用集群经常会遇到的问题。Hadoop的高可用性：Hadoop的NameNode包括active和standby两种状态，通过故障转移机制（即当active NameNode意外终止时，快速启

overfit同步小助手 2024-06-01 11:03:49 0 收藏

hadoop HA菜鸟级别搭建教程

NameNode提供服务，两个NameNode存储的元数据是实时同步的，当Active的NameNode出现问题时，通过zk实时切换到Standby的NameNode上，并将Standby改为Active状态。这个是名为master的容器，将容器内的端口映射到主机上，分别将容器内的 8088、987

overfit同步小助手 2024-06-01 07:03:19 0 收藏

sgg大数据全套技术链接网盘地址

感谢尚硅谷

overfit同步小助手 2024-06-01 05:03:26 0 收藏

VMware 虚拟机安装 Hadoop/Hive 集群详细教程 (Macbook M1/M2) (第一部分)

以安装 hadoop2 虚拟机作为例子Select ISO Image，选择宿主机上的镜像文件Select OS，选择 Debian10 操作系统Select install CentOS7，选择安装Select start up disk，选择硬盘Select GNOME GUI，选择安装桌面Se

overfit同步小助手 2024-06-01 03:03:43 0 收藏

Spark结课总结

在程序运行过程中值不会发生变化的量为常量或值，常量通过val关键字定义，常量一旦定义就不可更改，即不能对常量进行重新计算或重新赋值。数组是一种存储了相同类型元素的固定大小的顺序集合，Scala定义一个数组的语法格式如下。var arr:Array[String] = Array(元素1,元素2,…)

overfit同步小助手 2024-06-01 03:03:37 0 收藏

Flink之Watermark

punctuated:每条数据后都会插入当前事件时间解析出来的watermarkperiodic:周期性生成，默认是200m生成一个watermark在新版本中punctuated已经被标记为过时(当前版本1.18.1)watermark的构造：1.forMontonousTimestamps:时间

overfit同步小助手 2024-06-01 01:03:36 0 收藏

hbase启动报错NoNode for /hbase/master等各种错误咋整？

我在配置伪分布式的hbase时（使用自带的zookeeper），启动hbase shell后报错NoNode for /hbase/master，查看日志文件发现报错Master exiting、Master is initializing尝试了网上的各种办法，包括：①修改hbase-site.xm

overfit同步小助手 2024-06-01 00:04:01 0 收藏

毕设项目分享地铁大数据客流分析系统设计与实现

Hi，大家好，这里是丹成学长，今天向大家介绍地铁大数据客流分析系统**毕设帮助, 选题指导, 项目分享: **

overfit同步小助手 2024-06-01 00:03:55 0 收藏

深入理解图形处理器（GPU）：加速人工智能和大数据计算的引擎

GPU（Graphics processing unit）是一种专门设计用于处理图形和图像的处理器。它的设计初衷是加速图形渲染，以提升计算机图形的性能和质量。与中央处理器（CPU）不同，GPU拥有大量的小型处理单元，能够并行执行大量相似的任务。这使得GPU在处理大规模数据集和复杂算法时比CPU更加高

overfit同步小助手 2024-05-31 23:03:47 0 收藏

git拉取项目前需要操作哪些？

5.输入 $ cat ~/.ssh/id_rsa.pub 生成密钥，将密钥复制粘贴到(极狐GitLab是SSH密钥/gitee是SSH公钥)中，然后将生成的密钥放置在input框中。3.出现empty for no passphrase：(输入也可以不输入也可以) 然后按enter键。4.出现sam

overfit同步小助手 2024-05-31 19:04:32 0 收藏

人工智能与地理大数据实验--出租车GPS数据—时空大数据Python处理基础（一）

Python处理地理大数据基础

overfit同步小助手 2024-05-31 19:03:40 0 收藏

如何使用Flink连接openGauss数据库（flink-cdc-connector）

本文会在最后附上代码修改的git patch首先简单介绍下flink，Apache Flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和管道方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程

overfit同步小助手 2024-05-31 19:03:32 0 收藏

Hive3.1.3详细安装配置教程及安装时问题解决

可能会出现错误 Exception in thread "main" java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;原因是hive/lib中的gua

overfit同步小助手 2024-05-31 19:03:24 0 收藏

Git系列：config 配置

Git系统内含三层配置文件，分别为系统级、全局和本地配置。在安装Git后，首先应设置用户名称和邮箱地址，因为每次Git提交都会使用这些信息，并且它们会被永久嵌入到提交记录中解决Git每次提交和拉取代码需要输入用户名和密码的问题

overfit同步小助手 2024-05-31 17:04:07 0 收藏

使用Spark进行高效数据清洗与预处理

1.背景介绍在大数据时代，数据清洗和预处理是数据分析和机器学习的关键环节。Apache Spark作为一个高性能、易用的大数据处理框架，可以帮助我们更高效地进行数据清洗和预处理。本文将从以下几个方面进行阐述：背景介绍核心概念与联系核心算法原理和具体操作步骤以及数学模型公式详细讲解具体最佳实践：代码实

overfit同步小助手 2024-05-31 17:03:41 0 收藏

git lfs如何使用

Git Large File Storage (LFS) 是一个Git扩展工具，用于更好地管理和存储大型文件（例如图片、视频、数据集等），这些文件不适合直接纳入Git仓库进行版本控制。

overfit同步小助手 2024-05-31 15:04:31 0 收藏

Git Worktree 高级使用，这样清爽多了｜新技能

通过借助 bare repo 的特性，我们可以非常整洁的将所有 worktree 只管理在当前项目目录下，多分支协同开发，就像这样：└── main如果你有磁盘管理强迫症，这绝对是个好办法。如果你想更好的理解整个过程，你需要在操作本文命令的同时，查看 Git 相关的文件信息有什么问题，留言区交流笔者

overfit同步小助手 2024-05-31 14:04:27 0 收藏

Spark总结

Spark是Apache软件基金会下的一个开源大数据处理框架，它最初由加州大学伯克利分校的AMPLab开发。Spark提供了一个快速、通用的大规模数据处理引擎，具有内存计算的优势，使得它能够比传统的基于磁盘的数据处理系统（如Hadoop MapReduce）快得多。内存计算：Spark的主要优势之一

overfit同步小助手 2024-05-31 13:03:47 0 收藏