Hive中UNION ALL和UNION的区别
Hive官方提供了一种联合查询的语法,原名为Union Syntax,用于联合两个表的记录进行查询,此处的联合和join是不同的,join是将两个表的字段拼接到一起,而union是将两个表的记录拼接在一起。换言之, join是用于左右拼接,而union是用于上下拼接。联合查询方式UNIONUNION
Hive的索引
Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键。Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce任务中需要读取的数据块的数量。在可以预见到分区数据非常庞大的情况下,分桶和索引常常是优于分区的。而分桶由于SMB
hive中split函数相关总结
split 函数一直再用,居然发现没有总结,遂补充一下;
Hive基础知识(十):Hive导入数据的五种方式
1)语法(1)load data:表示加载数据(2)local:表示从本地加载数据到 hive 表;否则从 HDFS 加载数据到 hive 表(3)inpath:表示加载数据的路径(4)overwrite:表示覆盖表中已有数据,否则表示追加(5)into table:表示加载到哪张表(6)stude
头歌—Hive的安装与配置
头歌—hive的安装与配置
Hive 特殊的数据类型 Array、Map、Struct
获取数组值的方式和我们在 Java 中一样,采用下标的方式访问,当访问的下标超过数组的长度时,并不会报错,它会返回。这里值 Value 中存在整型和字符型数据类型不统一的情况,它会统一将值 Value 都转换成字符型。Map 是 KV 键值对类型,其中存储的字段数量可多可少,但是 KV 键值对的数据
Hive中的NVL函数与COALESCE函数
说明: COALESCE是一个函数, (v1, v2, …,vn)依次参考各参数表达式,遇到非null值即停止并返回该值。如果所有的表达式都是空值,最终将返回一个空值。Hive SQL 中的一种聚合函数,它可以返回第一个非空值。功能:如果value为NULL,则NVL函数返回。如果两个参数都为NUL
Hive中的CONCAT、CONCAT_WS与COLLECT_SET函数
concat用于连接字符串。concat_ws用于按照指定的分隔符连接字符串。与group by和concat_ws一起使用可以实现"列转行。
FlinkSQL优化器查询重写技术引发UDF翻倍调用问题分析及解决方案
Flink SQL无疑是实时数仓领域一个最耀眼的明星,他对于统一流批一体的设计可谓是居功至伟。鉴于Flink SQL在实时数仓领域的卓越表现,我们很有必要对Flink SQL在ETL场景下的表现要有深刻的理解。本文聚焦于Flink SQL UDF使用场景下由于SQL重写导致UDF翻倍调用的原理分
Hive on Tez 性能优化
Hive on Tez 性能优化优化Hive on Tez查询永远不能以一种万能的方法来完成。查询的性能取决于数据的大小、文件类型、查询设计和查询模式。在性能测试期间,要评估和验证配置参数和任何SQL修改。建议在工作负载的性能测试期间一次进行一项更改,并且最好在生产环境中使用它们之前评估调整更改在您
Hive期末测试题(头歌)
头歌实验-Hive期末测试题
数据仓库、数据湖、湖仓一体 傻傻分不清楚?
大数据时代,数据平台一般被称之为大数据平台。提供易于部署和管理的泛Hadoop生态及其他存储计算引擎的PaaS平台,助力企业构建企业级数据湖技术架构。以处理海量数据存储、计算及不间断流数据实时计算、离线计算、智能推荐、交互式查询、数据湖构建等场景为主的一套基础设施。典型的包括基于Hadoop 生态
Hive &mysql
Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能,底层数据是存储在 HDFS 上。Hive的本质是将 SQL 语句转换为 MapReduce 任务运行,使不熟悉 MapReduce
数据仓库之Hologres
Hologres是阿里云推出的一种云原生的实时分析型数据仓库。它是基于开源项目Apache Hudi(Hadoop Upserts Deletes and Incrementals)进行扩展和优化的。Hologres提供了高性Hologres是阿里云推出的一种云原生的实时分析型数据仓库。它是基于开源
《大数据分析-数据仓库项目实战》学习笔记
文章部分内容参考《大数据分析-数据仓库项目实战》一书,仅供学习,喜欢可购买正版书籍,如有不妥请联系删除。
Hive数仓模型
Hive数仓模型
hive 简简单单易如反掌
1. 实验一:Linux操作系统环境设置实验环境 本实验所需之主要资源环境:资源环境 服务器集群 单节点,机器最低配置:双核 CPU、8GB 内存、100G 硬盘 运行环境 CentOS 7.4 服务和组件 服务和组件根据实验需求安装。
数据仓库 vs 数据湖 vs 湖仓一体:如何基于自身数据策略,选择最合适的数据管理方案?
一文读懂数据仓库、数据湖、湖仓一体的区别,找准更适合的数据策略。结合大型视频流平台、电商、医疗等行业场景深入剖析。
hive的简单认识
今天写的比较急,先凑活看,有空的话再完善一下
数据仓库实验二:关联规则挖掘实验
数据仓库与数据挖掘实验二:关联规则挖掘实验。