hive真实表空间大小统计

如果是采用hdfs上传加载的表、或者是flume直接写hdfs的表空间通常看hive的属性是不准确的。

HiveSql一天一个小技巧:利用array_contains()函数进行容器存在性计数问题分析

由于题意要求了不能使用join等关联形式求解,通过题意分析此题本质为存在性计数问题,类似于java中我们构建一个HashSet()我们往里面Put数据的时候,每次检查一次是否有该值,有就记为1,最终统计重复的个数有多少个,这类问题也就是我们经常说的容器变换问题,而对应到Hive中时候我们如何构建容器

hive 之with as 和create view 和create temporary table用法

create view 其实和with tmp as 很相似,都是把复杂的可以重用的sql简化,我觉得唯一的区别就是 view是可以创建下次再使用的 但是with只是当前sql有效,甚至不是会话有效。可以看到 这个join with as 和 view 都是执行了两次,但是temporary ta

【Hive进阶】-- Hive SQL、Spark SQL和 Hive on Spark SQL

Hive由Facebook开发,用于解决海量结构化日志的数据统计,于2008年贡献给 Apache 基金会。Hive是基于Hadoop的数据仓库工具,可以将结构化数据映射为一张表,提供类似SQL语句查询功能本质:将Hive SQL转化成MapReduce程序。Spark SQL主要用于结构型数据处理

启动hive报错no hbase in

bin/hive 报 which: no hbase in

Hive常用函数介绍(窗口函数)

快看,眼前这片文章居然是一篇文章,它一定对开窗函数有所介绍,让我们点击进去瞧一瞧

hive复杂类型数据详解—array,map,struct

hive复杂数据类型有三种,map,array,struct。本文会详细介绍三种类型数据的建表、查询、相关函数以及与其他数据类型的相互转换。目录一、简介二、建表语句三、类型构建四、查询array类型map类型struct类型五、与其他数据类型转换将array和map转化为基本数据类型(行转列)基本数

IDEA Windows下SPARK连接Hive

IDEA Windows下SPARK连接Hive

Hive调优及参数优化(详细版)

Hive调优及参数优化,涵盖:基础配置优化、压缩配置优化、分桶优化、Map Join、Bucket-Map Join、SMB Join、Hive并行操作、Hive索引、数据清洗转换优化、统计分析优化、Hive优化器等等......

flink-sql大量使用案例

本文是 flink sql 的一些使用案例,同时也包括了一些特殊用法展示。

Hive Lateral View + explode 详解

hive中的函数分为3类,UDF函数、UDAF函数、UDTF函数UDF:一进一出 UDAF:聚集函数,多进一出,类似于:count/max/min UDTF:一进多出,如explore()、posexplode(),UDTF函数的时候只允许一个字段百度explode()时,经常会出现lateral

Hive与HBase之间的区别和联系

首先要知道Hive和HBase两者的区别,我们必须要知道两者的作用和在大数据中扮演的角色概念Hive1.Hive是hadoop数据仓库管理工具,严格来说,不是数据库,本身是不存储数据和处理数据的,其依赖于HDFS存储数据,依赖于MapReducer进行数据处理。2.Hive的优点是学习成本低,可以通

idea连接kerberos认证的hive

其实用dbeaver连接hive就可以了。但是呢,idea也有这个功能,本着研究下的想法就试试。结果最后成功了 最后记录下。参考文章。感觉不太行里面提到了两个解决办法,个人只习惯用第一个。新增一个hive数据源url填写AuthMech=1;vm option填写。

Hive字符串函数-空格处理

Hive字符串函数-空格处理

hive 导入数据的5种方式

:表示覆盖表中已有数据,否则表示追加如:  从本地文件系统加载数据到hive表  从hdfs文件系统加载数据覆盖hive表insert into:以追加数据的方式插入到表或分区,原有数据不会删除insert overwrite:覆盖表中已存在的数据3. 创建表时加载数据(1)创建表时使用查询语句(2

Hive调优策略之SQL优化

介绍了hive如何从sql层面进行调优

hive的开窗函数篇

hive的开窗函数over()

浅谈Hive SQL的优化

目前团队的数据处理都在Hadoop集群上,一是因为需要处理的数据量都是亿级的,这种规模的数据适合用Hadoop集群并行处理;二是免除了分库分表给查询处理上带来的麻烦。Hive是基于Hadoop的一个数据仓库工具,它将存储在HDFS上的结构化的文件映射成一张关系型数据库表,提供简单的SQL查询功能。本

数仓工具—Hive实战之GenericUDF使用详解(24)

GenericUDF 使用起来相比UDF 更复杂,但是我们也介绍了它支持复杂数据结构,性能更高,需要注意的是GenericUDF是抽象类不是接口,关于GenericUDF的使用的复杂案例可以参考我们的UDAF批量调用外部请求。

实际业务读取Hive数据库(2023年2月)

python中hive引擎读数的封装

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈