大数据 Hive - overfit.cn

虚拟机连接mysql出现的问题

1:下载mysql出现无法解析的问题在端口号和网关配置没有出错的前提下，进去etc目录下通过命令vim resolv.conf进去并添加以下内容。可以通过:ping 8.8.8.8测试是否成功，在输入时前面一定不能有空格。2.在进入mysql时输入密码出现not found这是因为初始密码中存在特殊

overfit同步小助手 2023-03-30 15:04:31 0 收藏

hive真实表空间大小统计

如果是采用hdfs上传加载的表、或者是flume直接写hdfs的表空间通常看hive的属性是不准确的。

overfit同步小助手 2023-03-30 12:05:15 0 收藏

HiveSql一天一个小技巧：利用array_contains()函数进行容器存在性计数问题分析

由于题意要求了不能使用join等关联形式求解，通过题意分析此题本质为存在性计数问题，类似于java中我们构建一个HashSet()我们往里面Put数据的时候，每次检查一次是否有该值，有就记为1，最终统计重复的个数有多少个，这类问题也就是我们经常说的容器变换问题，而对应到Hive中时候我们如何构建容器

overfit同步小助手 2023-03-30 11:05:04 0 收藏

hive 之with as 和create view 和create temporary table用法

create view 其实和with tmp as 很相似，都是把复杂的可以重用的sql简化，我觉得唯一的区别就是 view是可以创建下次再使用的但是with只是当前sql有效，甚至不是会话有效。可以看到这个join with as 和 view 都是执行了两次，但是temporary ta

overfit同步小助手 2023-03-30 11:04:44 0 收藏

【Hive进阶】-- Hive SQL、Spark SQL和 Hive on Spark SQL

Hive由Facebook开发，用于解决海量结构化日志的数据统计，于2008年贡献给 Apache 基金会。Hive是基于Hadoop的数据仓库工具，可以将结构化数据映射为一张表，提供类似SQL语句查询功能本质：将Hive SQL转化成MapReduce程序。Spark SQL主要用于结构型数据处理

overfit同步小助手 2023-03-30 10:05:15 0 收藏

启动hive报错no hbase in

bin/hive 报 which: no hbase in

overfit同步小助手 2023-03-30 10:04:45 0 收藏

Hive常用函数介绍(窗口函数)

快看，眼前这片文章居然是一篇文章，它一定对开窗函数有所介绍，让我们点击进去瞧一瞧

overfit同步小助手 2023-03-30 08:05:19 0 收藏

hive复杂类型数据详解—array,map,struct

hive复杂数据类型有三种，map，array，struct。本文会详细介绍三种类型数据的建表、查询、相关函数以及与其他数据类型的相互转换。目录一、简介二、建表语句三、类型构建四、查询array类型map类型struct类型五、与其他数据类型转换将array和map转化为基本数据类型（行转列）基本数

overfit同步小助手 2023-03-30 07:04:38 0 收藏

IDEA Windows下SPARK连接Hive

overfit同步小助手 2023-03-30 06:04:52 0 收藏

Hive调优及参数优化（详细版）

Hive调优及参数优化，涵盖：基础配置优化、压缩配置优化、分桶优化、Map Join、Bucket-Map Join、SMB Join、Hive并行操作、Hive索引、数据清洗转换优化、统计分析优化、Hive优化器等等......

overfit同步小助手 2023-03-30 06:04:22 0 收藏

flink-sql大量使用案例

本文是 flink sql 的一些使用案例，同时也包括了一些特殊用法展示。

overfit同步小助手 2023-03-30 05:04:56 0 收藏

Hive Lateral View + explode 详解

hive中的函数分为3类,UDF函数、UDAF函数、UDTF函数UDF：一进一出 UDAF:聚集函数，多进一出，类似于：count/max/min UDTF:一进多出,如explore()、posexplode()，UDTF函数的时候只允许一个字段百度explode()时，经常会出现lateral

overfit同步小助手 2023-03-30 04:05:21 0 收藏

Hive与HBase之间的区别和联系

首先要知道Hive和HBase两者的区别，我们必须要知道两者的作用和在大数据中扮演的角色概念Hive1.Hive是hadoop数据仓库管理工具，严格来说，不是数据库，本身是不存储数据和处理数据的，其依赖于HDFS存储数据，依赖于MapReducer进行数据处理。2.Hive的优点是学习成本低，可以通

overfit同步小助手 2023-03-30 04:05:15 0 收藏

idea连接kerberos认证的hive

其实用dbeaver连接hive就可以了。但是呢，idea也有这个功能，本着研究下的想法就试试。结果最后成功了最后记录下。参考文章。感觉不太行里面提到了两个解决办法，个人只习惯用第一个。新增一个hive数据源url填写AuthMech=1;vm option填写。

overfit同步小助手 2023-03-30 04:04:30 0 收藏

Hive字符串函数-空格处理

overfit同步小助手 2023-03-30 03:04:52 0 收藏

hive 导入数据的5种方式

:表示覆盖表中已有数据，否则表示追加如：从本地文件系统加载数据到hive表从hdfs文件系统加载数据覆盖hive表insert into：以追加数据的方式插入到表或分区，原有数据不会删除insert overwrite：覆盖表中已存在的数据3. 创建表时加载数据（1）创建表时使用查询语句（2

overfit同步小助手 2023-03-30 01:05:14 0 收藏

Hive调优策略之SQL优化

介绍了hive如何从sql层面进行调优

overfit同步小助手 2023-03-30 00:05:10 0 收藏

hive的开窗函数篇

hive的开窗函数over（）

overfit同步小助手 2023-03-30 00:05:01 0 收藏

浅谈Hive SQL的优化

目前团队的数据处理都在Hadoop集群上，一是因为需要处理的数据量都是亿级的，这种规模的数据适合用Hadoop集群并行处理；二是免除了分库分表给查询处理上带来的麻烦。Hive是基于Hadoop的一个数据仓库工具，它将存储在HDFS上的结构化的文件映射成一张关系型数据库表，提供简单的SQL查询功能。本

overfit同步小助手 2023-03-30 00:04:58 0 收藏

数仓工具—Hive实战之GenericUDF使用详解(24)

GenericUDF 使用起来相比UDF 更复杂，但是我们也介绍了它支持复杂数据结构，性能更高，需要注意的是GenericUDF是抽象类不是接口，关于GenericUDF的使用的复杂案例可以参考我们的UDAF批量调用外部请求。

overfit同步小助手 2023-03-30 00:04:45 0 收藏