大数据 Hive - overfit.cn

Hive 与 SQL 标准和主流 SQL DB 的语法区别

Hive是一种基于Hadoop的数据仓库软件，可以将结构化数据文件映射为一张数据库表，并提供了类SQL查询接口，使得用户可以使用SQL类语言来查询数据。Hive可以处理包括文本、CSV、JSON、ORC和Parquet等格式的数据文件，支持数据的导入、导出、转换等操作。Hive可以在Hadoop集群

overfit同步小助手 2024-05-27 13:04:02 0 收藏

分布式SQL计算Hive入门（黑马程序员）Day2

Hive是一个基于Hadoop的数据仓库系统，它提供了类似于SQL的查询语言HiveQL，可以将结构化数据存储在Hadoop分布式文件系统中，并通过MapReduce进行过处理。作用：删除参数指定的文件和目录，参数可以有多个，删除目录需要加-r参数如果指定-skipTrash选项，那么在回收站可

overfit同步小助手 2024-05-27 05:03:45 0 收藏

Hive中UNION ALL和UNION的区别

Hive官方提供了一种联合查询的语法，原名为Union Syntax，用于联合两个表的记录进行查询，此处的联合和join是不同的，join是将两个表的字段拼接到一起，而union是将两个表的记录拼接在一起。换言之， join是用于左右拼接，而union是用于上下拼接。联合查询方式UNIONUNION

overfit同步小助手 2024-05-27 00:03:56 0 收藏

Hive的索引

Hive支持索引，但是Hive的索引与关系型数据库中的索引并不相同，比如，Hive不支持主键或者外键。Hive索引可以建立在表中的某些列上，以提升一些操作的效率，例如减少MapReduce任务中需要读取的数据块的数量。在可以预见到分区数据非常庞大的情况下，分桶和索引常常是优于分区的。而分桶由于SMB

overfit同步小助手 2024-05-26 20:03:53 0 收藏

头歌：Spark Streaming

套接字流是通过监听Socket端口接收的数据，相当于Socket之间的通信，任何用户在用Socket（套接字）通信之前，首先要先申请一个Socket号，Socket号相当于该用户的电话号码。同时要知道对方的Socket，相当于对方也有一个电话号码。然后向对方拨号呼叫，相当于发出连接请求。对方假如在场

overfit同步小助手 2024-05-26 15:03:54 0 收藏

【Hive SQL 每日一题】行列转换

列，分别代表每名同学对应的各科成绩，我们只需要在统计时加入判断条件即可，每列只固定求某科的成绩，如果不是则用。解决问题的方式有许多种，但往往我们需要去注重学习解决问题的思路，希望本文对你有所帮助。行转列操作，其实就是将行数据通过列的方式进行查询展示而已，这里行转列数据共有。会返回两个参数，其中第一个

overfit同步小助手 2024-05-26 13:04:07 0 收藏

hive中split函数相关总结

split 函数一直再用，居然发现没有总结，遂补充一下；

overfit同步小助手 2024-05-26 09:03:44 0 收藏

Hive基础知识（十）：Hive导入数据的五种方式

1）语法（1）load data:表示加载数据（2）local:表示从本地加载数据到 hive 表；否则从 HDFS 加载数据到 hive 表（3）inpath:表示加载数据的路径（4）overwrite:表示覆盖表中已有数据，否则表示追加（5）into table:表示加载到哪张表（6）stude

overfit同步小助手 2024-05-26 06:04:09 0 收藏

头歌—Hive的安装与配置

头歌—hive的安装与配置

overfit同步小助手 2024-05-26 03:03:38 0 收藏

apache-hive-3.1.2-bin 安装

1. hadoop、hive、flink等目前版本基本依赖于jdk1.8, 所以需要专门的JDK环境，毕竟现在大多开发者都是使用>=11版本了。2. windows 系统建议使用VMware通过新建虚拟机安装，适用windows的版本在安装中配置、安装后使用都会挺麻烦(权限、cmd启动脚本、切换开发

overfit同步小助手 2024-05-26 03:03:33 0 收藏

Hive 特殊的数据类型 Array、Map、Struct

获取数组值的方式和我们在 Java 中一样，采用下标的方式访问，当访问的下标超过数组的长度时，并不会报错，它会返回。这里值 Value 中存在整型和字符型数据类型不统一的情况，它会统一将值 Value 都转换成字符型。Map 是 KV 键值对类型，其中存储的字段数量可多可少，但是 KV 键值对的数据

overfit同步小助手 2024-05-26 01:03:23 0 收藏

Hive中的NVL函数与COALESCE函数

说明： COALESCE是一个函数， (v1, v2, …,vn)依次参考各参数表达式，遇到非null值即停止并返回该值。如果所有的表达式都是空值，最终将返回一个空值。Hive SQL 中的一种聚合函数，它可以返回第一个非空值。功能：如果value为NULL，则NVL函数返回。如果两个参数都为NUL

overfit同步小助手 2024-05-26 00:03:31 0 收藏

Hive中的CONCAT、CONCAT_WS与COLLECT_SET函数

concat用于连接字符串。concat_ws用于按照指定的分隔符连接字符串。与group by和concat_ws一起使用可以实现"列转行。

overfit同步小助手 2024-05-25 21:04:01 0 收藏

【hive】transform脚本

和udf差不多的作用，支持用python实现。通过标准输入流从hive读取数据，内部处理完再通过标准输出流将处理结果返回给hive。实现流程上比udf要更简单灵活一些，只需要上传脚本=>add file加载到分布式缓存=>使用。

overfit同步小助手 2024-05-25 17:03:31 0 收藏

基于Hadoop和Hive的聊天数据（FineBI）可视化分析

Fine BI支持Hadoop Hive数据源，可以直接连接Hive进行数据查询和可视化，且提供多种图表类型，包括折线图、柱状图、饼图等，满足用户不同的数据展示需求。本文将通过FineBI将hadoop和hive联系起来对聊天数据进行可视化报表分析

overfit同步小助手 2024-05-25 11:03:41 0 收藏

Hive on Tez 性能优化

Hive on Tez 性能优化优化Hive on Tez查询永远不能以一种万能的方法来完成。查询的性能取决于数据的大小、文件类型、查询设计和查询模式。在性能测试期间，要评估和验证配置参数和任何SQL修改。建议在工作负载的性能测试期间一次进行一项更改，并且最好在生产环境中使用它们之前评估调整更改在您

overfit同步小助手 2024-05-25 09:04:03 0 收藏

Hive期末测试题（头歌）

头歌实验-Hive期末测试题

overfit同步小助手 2024-05-25 07:04:32 0 收藏

Spark 为什么比 Hive 快

由于 MapReduce 的特性，Hive 在处理大规模数据时可能会出现较高的延迟，因为它需要频繁地将数据写入和读取磁盘，Shuffle 操作会导致花费的时间代价比较大。那么在稳定性方面，Hive 优于 Spark，这是因为在 MR 任务中，数据总是按照块分片进行处理，每块数据都可以独立地读取和处理

overfit同步小助手 2024-05-25 06:03:56 0 收藏

Hive &mysql

Hive 由 Facebook 实现并开源，是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能，底层数据是存储在 HDFS 上。Hive的本质是将 SQL 语句转换为 MapReduce 任务运行，使不熟悉 MapReduce

overfit同步小助手 2024-05-25 02:04:08 0 收藏

Hive数仓模型

overfit同步小助手 2024-05-24 15:04:05 0 收藏