大数据 Hadoop - overfit.cn

Hadoop与hdfs的认知讲解

HDFS（Hadoop Distributed File System）是Hadoop项目的一个子项目，也是Hadoop的核心组件之一。它是一个分布式文件系统，设计用于存储大型数据，如TB和PB级别的数据。文件分块存储：在HDFS中，文件在物理上是分块存储的。块的大小可以通过配置参数（dfs.blo

overfit同步小助手 2024-06-04 10:03:13 0 收藏

ubuntukylin-22.04.1安装Hive、MySQL、配置Hive及Hive连接MySQL操作

ubuntu系统下安装Hive、MySQL、配置Hive及Hive连接MySQL详细操作（附过程图）

overfit同步小助手 2024-06-04 01:03:33 0 收藏

Hive on Spark 配置

Hive引擎包括：MR（默认）、tez、spark。Hive on Spark：Hive既作为存储元数据又负责 SQL 的解析优化，语法是 HQL 语法，执行引擎变成了 Spark，Spark 负责采用 RDD 执行。Spark on Hive：Hive 只作为存储元数据，Spark负责SQL解析优

overfit同步小助手 2024-06-03 20:04:42 0 收藏

【大数据·Hadoop】从词频统计由浅入深介绍MapReduce分布式计算的设计思想和原理

MapReduce的算法核心思想是：分治学过算法的同学应该会学到分治算法，所谓分治，就是把原问题分解为规模更小的问题，进行处理，最后将这些子问题的结果合并，就可以得到原问题的解。MapReduce这种分布式计算框架的核心就是：分治。上图是MapReduce的处理流程图，可以看到，MapReduce的

overfit同步小助手 2024-06-03 11:03:43 0 收藏

hive正则函数regexp_extract()提取字符串

分析：将a.STEP_ID 按照[_/,;]来分割，如果匹配上了就提取[_/,;]右侧的字符串，没有的话返回‘NA’;例子：nvl(REGEXP_SUBSTR('005/06','[^_/,;本例中分隔符之前只有数字和字母，且分隔符至多一个。

overfit同步小助手 2024-06-03 11:03:38 0 收藏

Hive常见的日期函数

UNIX 时间戳转日期语法：fom_unixtime(bigint unixtime[, string format]);返回类型：string。

overfit同步小助手 2024-06-03 09:04:11 0 收藏

Hive中文乱码的解决方法

解决Hive中文乱码问题

overfit同步小助手 2024-06-03 09:03:40 0 收藏

【大数据篇】Hadoop：大数据处理的核心基石

Hadoop决定创建一个由许多小伙伴组成的探险队，每个小伙伴都擅长处理不同类型的数据。他找到了擅长存储大量数据的“HDFS”（Hadoop Distributed File System），让它负责建造一个巨大的数据仓库，用来存放所有收集到的数据。接着，Hadoop又找到了擅长并行处理的“MapRe

overfit同步小助手 2024-06-02 21:03:46 0 收藏

Hadoop伪分布式安装教程

hivesever2的模拟用户功能，依赖于Hadoop提供的proxy user（代理用户功能），只有Hadoop中的代理用户才能模拟其他用户的身份访问Hadoop集群。因此，需要将hiveserver2的启动用户设置为Hadoop的代理用户，配置方式如下：修改配置文件。首先，在根目录下创建文件夹

overfit同步小助手 2024-06-02 21:03:36 0 收藏

hive客户端连接

主题：是一个抽象的概念，数据综合体，一个分析的主题可以对应多个数据源，在数仓的开展分析中，首先确定分析的主题，然后基于主题寻找，采集跟主题相关的数据。特点：服务于分析，要能应对海量数据的存储和数据计算，对于响应速度要求不高没我们很少修改数据，所以也不需要对数据的一致性，安全性进行考虑。ODS：源数据

overfit同步小助手 2024-06-02 04:04:38 0 收藏

修正版本 6.3.2 CHD 超详细！搭建本地大数据研发环境（16G内存+CDH）易错见红字

工欲善其事必先利其器，在经过大量的理论学习以后，需要有一个本地的研发环境来进行练手。已经工作的可以不依赖于公司的环境，在家也可以随意的练习。而自学大数据的同学，也可以进行本地练习，大数据是一门偏实践的学科，在找工作之前进行一些实践操作，也更利于对大数据知识的理解。本文将从头开始详细的记录整个大数据环

overfit同步小助手 2024-06-02 00:03:47 0 收藏

hive解析json_hive json解析函数

发知识点，真正体系化！**

overfit同步小助手 2024-06-01 23:03:44 0 收藏

Hive 之 UDF 运用（包会的）

Hive 支持两种 UDF 函数自定义操作，分别是：GenericUDF（通用UDF）：用于实现那些可以处理任意数据类型的函数。它们的输入和输出类型可以是任意的，但需要在函数内部处理类型转换和逻辑，可以实现更复杂的逻辑处理。UDF：用于实现那些只能处理特定数据类型的函数。每个 UDF 都明确指定了输

overfit同步小助手 2024-06-01 22:03:37 0 收藏

Hadoop复习（上）

系统启动，读取fsimage和edis至内存，形成内存元数据meta data， client向NameNode发起数据增删查请求，NameNode在接受请求后在内存元数据中执行操作，并返回结果给client,如果是增删操作，则同时记录数据操作日志edits。Container启动后，用于执行用户的

overfit同步小助手 2024-06-01 21:03:47 0 收藏

hive表基本语法

overfit同步小助手 2024-06-01 16:03:12 0 收藏

Hive中的复杂数据类型 - array、map、struct

Hive中的复杂数据类型，学会如何使用，如何指定字段为struct类型？如何向struct类型的字段中插入数据？如何取出struct字段中的值？

overfit同步小助手 2024-06-01 14:03:46 0 收藏

hive：insert into/overwrite插入分区详解

最近在做数据清洗的工作，从ods层到dwd层对数据进行标准化。有多张表需要汇入主题表，因为表中的字段比较多，况且也不统一，需要从指定字段拿数据，并且清洗，最后汇入主题表。PS：又结束了一天忙碌的工作，祝愿大家开心生活每一天。

overfit同步小助手 2024-06-01 14:03:16 0 收藏

hadoop格式化失败-拒绝连接

以上就是今天要讲的内容，本文仅仅简单介绍了格式化失败-拒绝连接的原因及解决办法，本文搭建的是hadoop的高可用集群经常会遇到的问题。Hadoop的高可用性：Hadoop的NameNode包括active和standby两种状态，通过故障转移机制（即当active NameNode意外终止时，快速启

overfit同步小助手 2024-06-01 11:03:49 0 收藏

hive的安装

overfit同步小助手 2024-06-01 10:04:07 0 收藏

hadoop HA菜鸟级别搭建教程

NameNode提供服务，两个NameNode存储的元数据是实时同步的，当Active的NameNode出现问题时，通过zk实时切换到Standby的NameNode上，并将Standby改为Active状态。这个是名为master的容器，将容器内的端口映射到主机上，分别将容器内的 8088、987

overfit同步小助手 2024-06-01 07:03:19 0 收藏