Hadoop与hdfs的认知讲解
HDFS(Hadoop Distributed File System)是Hadoop项目的一个子项目,也是Hadoop的核心组件之一。它是一个分布式文件系统,设计用于存储大型数据,如TB和PB级别的数据。文件分块存储:在HDFS中,文件在物理上是分块存储的。块的大小可以通过配置参数(dfs.blo
ubuntukylin-22.04.1安装Hive、MySQL、配置Hive及Hive连接MySQL操作
ubuntu系统下安装Hive、MySQL、配置Hive及Hive连接MySQL详细操作(附过程图)
Hive on Spark 配置
Hive引擎包括:MR(默认)、tez、spark。Hive on Spark:Hive既作为存储元数据又负责 SQL 的解析优化,语法是 HQL 语法,执行引擎变成了 Spark,Spark 负责采用 RDD 执行。Spark on Hive:Hive 只作为存储元数据,Spark负责SQL解析优
【大数据·Hadoop】从词频统计由浅入深介绍MapReduce分布式计算的设计思想和原理
MapReduce的算法核心思想是:分治学过算法的同学应该会学到分治算法,所谓分治,就是把原问题分解为规模更小的问题,进行处理,最后将这些子问题的结果合并,就可以得到原问题的解。MapReduce这种分布式计算框架的核心就是:分治。上图是MapReduce的处理流程图,可以看到,MapReduce的
hive正则函数regexp_extract()提取字符串
分析:将a.STEP_ID 按照[_/,;]来分割,如果匹配上了就提取[_/,;]右侧的字符串,没有的话返回‘NA’;例子:nvl(REGEXP_SUBSTR('005/06','[^_/,;本例中分隔符之前只有数字和字母,且分隔符至多一个。
Hive常见的日期函数
UNIX 时间戳转日期语法:fom_unixtime(bigint unixtime[, string format]);返回类型:string。
Hive中文乱码的解决方法
解决Hive中文乱码问题
【大数据篇】Hadoop:大数据处理的核心基石
Hadoop决定创建一个由许多小伙伴组成的探险队,每个小伙伴都擅长处理不同类型的数据。他找到了擅长存储大量数据的“HDFS”(Hadoop Distributed File System),让它负责建造一个巨大的数据仓库,用来存放所有收集到的数据。接着,Hadoop又找到了擅长并行处理的“MapRe
Hadoop伪分布式安装教程
hivesever2的模拟用户功能,依赖于Hadoop提供的proxy user(代理用户功能),只有Hadoop中的代理用户才能模拟其他用户的身份访问Hadoop集群。因此,需要将hiveserver2的启动用户设置为Hadoop的代理用户,配置方式如下:修改配置文件。首先,在根目录下创建文件夹
hive客户端连接
主题:是一个抽象的概念,数据综合体,一个分析的主题可以对应多个数据源,在数仓的开展分析中,首先确定分析的主题,然后基于主题寻找,采集跟主题相关的数据。特点:服务于分析,要能应对海量数据的存储和数据计算,对于响应速度要求不高没我们很少修改数据,所以也不需要对数据的一致性,安全性进行考虑。ODS:源数据
修正版本 6.3.2 CHD 超详细!搭建本地大数据研发环境(16G内存+CDH)易错见红字
工欲善其事必先利其器,在经过大量的理论学习以后,需要有一个本地的研发环境来进行练手。已经工作的可以不依赖于公司的环境,在家也可以随意的练习。而自学大数据的同学,也可以进行本地练习,大数据是一门偏实践的学科,在找工作之前进行一些实践操作,也更利于对大数据知识的理解。本文将从头开始详细的记录整个大数据环
hive解析json_hive json解析函数
发知识点,真正体系化!**
Hive 之 UDF 运用(包会的)
Hive 支持两种 UDF 函数自定义操作,分别是:GenericUDF(通用UDF):用于实现那些可以处理任意数据类型的函数。它们的输入和输出类型可以是任意的,但需要在函数内部处理类型转换和逻辑,可以实现更复杂的逻辑处理。UDF:用于实现那些只能处理特定数据类型的函数。每个 UDF 都明确指定了输
Hadoop复习(上)
系统启动,读取fsimage和edis至内存,形成内存元数据meta data, client向NameNode发起数据增删查请求,NameNode在接受请求后在内存元数据中执行操作,并返回结果给client,如果是增删操作,则同时记录数据操作日志edits。Container启动后,用于执行用户的
hive表基本语法
hive表基本语法
Hive中的复杂数据类型 - array、map、struct
Hive中的复杂数据类型,学会如何使用,如何指定字段为struct类型?如何向struct类型的字段中插入数据?如何取出struct字段中的值?
hive:insert into/overwrite插入分区详解
最近在做数据清洗的工作,从ods层到dwd层对数据进行标准化。有多张表需要汇入主题表,因为表中的字段比较多,况且也不统一,需要从指定字段拿数据,并且清洗,最后汇入主题表。PS:又结束了一天忙碌的工作,祝愿大家开心生活每一天。
hadoop格式化失败-拒绝连接
以上就是今天要讲的内容,本文仅仅简单介绍了格式化失败-拒绝连接的原因及解决办法,本文搭建的是hadoop的高可用集群经常会遇到的问题。Hadoop的高可用性:Hadoop的NameNode包括active和standby两种状态,通过故障转移机制(即当active NameNode意外终止时,快速启
hive的安装
hive的安装
hadoop HA菜鸟级别搭建教程
NameNode提供服务,两个NameNode存储的元数据是实时同步的,当Active的NameNode出现问题时,通过zk实时切换到Standby的NameNode上,并将Standby改为Active状态。这个是名为master的容器,将容器内的端口映射到主机上,分别将容器内的 8088、987