【Hive_03】单行函数、聚合函数、窗口函数、自定义函数、炸裂函数
Hive会将常用的逻辑封装成函数给用户进行使用,类似于Java中的函数。好处:避免用户反复写逻辑,可以直接拿来使用。重点:用户需要知道函数叫什么,能做什么。Hive提供了大量的内置函数,按照其特点可大致分为如下几类:单行函数、聚合函数、炸裂函数、窗口函数。以下命令可用于查询所有内置函数的相关信息。1
Hive HWI 配置
1、下载安装好hive后,发现hive有hwi界面功能,研究下是否可以运行,于是使用hive –service hwi命令启动hwi界面报错。启动hwi功能2、访问192.168.126.110:9999/hwi,发现访问错误一、HWI介绍HWI)是Hive-2-1版本之前的源码中提供的网页控制台工
Hive表操作
external , 创建外部表partitioned by,分区表clustered by , 分桶表stored as , 存储格式location , 存储位置2.数据类型分类类型描述字面量示例原始类型TINYINT1字节的有符号整数 -128~1271YSMALLINT2字节的有符号整数 -
Hive行转列[一行拆分成多行/一列拆分成多列]
hive有张表armmttxn_tmp,其中有一个字段lot_number,该字段以逗号分隔开多个值,每个值又以冒号来分割料号和数量,如:A3220089:-40,A3220090:-40,A3220091:-40,A3220083:-40,A3220087:-40,A3220086:-40,A32
Hive的四种排序方法
hive有四种排序方法: ORDER BY 、SORT BY 、DISTRIBUTE BY 、CLUSTER BY。hive排序方法,hive的排序方式。
大数据数仓建模基础理论【维度表、事实表、数仓分层及示例】
数据仓库建模(Data Warehouse Modeling)是指在数据仓库(Data Warehouse)中组织和设计数据的过程,以便支持数据分析、报告和决策制定。数据仓库是一个集成的、主题导向的数据存储,用于存储来自不同来源的数据,经过清洗、转换和集成,以支持业务分析和决策。主要目标是创建一个能
Hive数据定义(1)
讲述Hive数据定义的基本知识点:数据仓库的创建、数据仓库的查询、数据仓库的修改、数据仓库的删除、表的创建、表的删除
【hive】Hive中的大宽表及其底层详细技术点
通过选择合适的存储格式、数据分区、列式存储和压缩、列存储索引、数据分桶等底层技术点,可以有效地管理和处理大量列的数据表格。在Hive中,可以选择不同的存储格式来存储大宽表,如文本格式、序列文件格式、列式存储格式等。为了满足这种需求,Hive引入了大宽表(Large Wide Table)的概念,它是
AnalyticDB for PostgreSQL 实时数据仓库上手指南
AnalyticDB for PostgreSQL 提供企业级数据仓库云服务,基于开源Greenplum构建,采用MPP架构,支持1000+节点PB级数据的实时分析。通过数据传输服务 DTS 、数据集成工具DataX、开源同步工具 rds_dbsync 、 Kettle 等,同步交易库数据 到 AD
Hive内核调优(二)
SQL调优过程中需要结合Hive日志分析性能瓶颈,如下是对关键日志进行说明。
数据仓库命名规范详解
小时(h)、天(d)、周(w)、月(m)、季(q)、年(y)。实时(rt)、小时(h)、天(d)、周(w)、月(m)、季(q)、年(y)、一次性任务(o)、无周期(n)实时(rt)、小时(h)、天(d)、周(w)、月(m)、季(q)、年(y)、一次性任务(o)、无周期(n)实时(rt)、小时(h)、
数据库事务的四大特性ACID
数据库事务具有四个基本特性,分别是ACID(原子性automicity、一致性Consistency、隔离性isolation和持久性durability)。
[Hive] INSERT OVERWRITE DIRECTORY要注意的问题
命令,需要确保目录的路径是正确的,并且Hive有权限访问和写入该目录。同时,由于所有的命令都是发送到主HiveServer上去执行的,所以要求此目录必须在主HiveServer节点上。注意数据覆盖、数据格式、分区数据重复以及数据迁移问题。确保在执行该语句之前,仔细检查并处理这些问题,以确保数据的准确
Hive(二)
select num_stu from students where name like '李%';select num_stu from students where name like '李_';select name from students where name not '王%';只针对表
数据仓库从0到1之数仓建模理论
存放原始数据,原始数据保持原状。原始数据一类是日志,一类是业务数据。业务数据从mysql导入进来,本身就是结构化的,以具体分隔符分割,可以直接记载到对应数据库。但是日志数据就不行,是一行一行的字符串,需要将字符串解析成可以导入hive的数据格式。即ODS层主要是对日志进行解析,要考虑解析成多少张表,
熟悉 Hive 的基本操作
【代码】熟悉 Hive 的基本操作。
hive语法
DDL。
数据仓库表级血缘应用
本文仅仅简单介绍了数据血缘在数仓中的一种应用场景。
hive进行base64 加密解密函数
【代码】hive进行base64 加密解密函数。
数据仓库 基本信息
数据仓库是。