Hive - overfit.cn

Hive集合函数 collect_set 和 collect_list 使用示例

在Hive中， collect_set 和 collect_list 是用于收集数据并将其存储为集合的聚合函数。

overfit同步小助手 2024-05-29 14:03:30 0 收藏

Hadoop集群搭建与初步了解Hive

应用： hadoop fs -put /root/1.txt /dir1 #上传文件 hadoop fs –put /root/dir2 / #上传目录。应用: hadoop fs -rm /initial-setup-ks.cfg #删除文件 hadoop fs -rm -r /dir2 #删除目

overfit同步小助手 2024-05-29 12:03:35 0 收藏

hive中如何取交集并集和差集

也可以使用 INTERSECT 关键字。也可以使用 except关键字。

overfit同步小助手 2024-05-29 04:03:38 0 收藏

hive窗口分析函数使用详解系列一

Hive提供的窗口和分析函数可以分为聚合函数类窗口函数，分组排序类窗口函数，偏移量计算类窗口函数

overfit同步小助手 2024-05-29 01:03:52 0 收藏

使用sqoop将mysql数据导入到hive中

这个命令是，将mysql中kk数据库中的表student导入到hive的db_msg数据库的student表（该表可不存在，会自动创建）正常情况下，可以显示所有数据库。

overfit同步小助手 2024-05-28 23:03:42 0 收藏

centos7上安装MySQL并配置Hive

这里的jar包已经在前面下载MySQL的时候已经下载了，这里就移动到下载jar包的目录下进行jar包的解压。1.启动Hadoop的进行，hive是基于Hadoop的来进行搭建的，他的数据时存储在hdfs中的，元数据存储在MySQL中。4. 进入到hive后根据自己的版本选择所要下载的hive版本，这

overfit同步小助手 2024-05-28 18:03:47 0 收藏

任务：将数据传输在Hive（基于hadoop的数据库管理工具）,设置定时任务的各个步骤

平台已经做好基于模板对应的sheet的存储：其中在做好对应关系和字段之后在数据库表也实现了对应表的创建。tip：一般在ods存储实时表，然后在dwd里面存储对应的处理过的宽表（组合起来可能包括很多字段）表有多个字段，每个字段的名称和类型都被列出。... ：定义表的存储格式和I/O格式。：定义表在HD

overfit同步小助手 2024-05-28 14:03:32 0 收藏

Hadoop、HDFS、Hive、Hbase区别及联系

Hadoop、HDFS、Hive和HBase是大数据生态系统中的关键组件，它们都是由Apache软件基金会管理的开源项目。下面将深入解析它们之间的区别和联系。

overfit同步小助手 2024-05-28 09:03:49 0 收藏

hive学习笔记之十一：UDTF(1)

/ 第二列的inspector类型为string型// 第三列的列名// 第三列的inspector类型为string型。

overfit同步小助手 2024-05-28 09:03:32 0 收藏

大数据面试之Hive SQL经典面试题

请注意，这种方法并没有真正地将行转换为独立的列，而是将多个行的值合并到了一个字符串中。在Hive中，由于schema是静态的，将任意数量的行转换为固定数量的列是不直接支持的。如果知道商品ID的最大数量，并且这个数量是固定的，可以使用条件聚合和。然后，在外部查询中，筛选出序列号小于等于 N 的记录，即

overfit同步小助手 2024-05-28 03:03:24 0 收藏

Hive（15）中使用sum() over()实现累积求和和滑动求和

三列数据，分别是员工的姓名、月份和销售额功能：对每个员工的销售业绩的累积求和以及滑动求和（每个月计算其最近三个月的总销售业绩）

overfit同步小助手 2024-05-28 00:03:32 0 收藏

Hive 表添加列（新增字段）

记录总结一下 Hive 表如何添加新的字段以及遇到的问题。最初是因为要验证 Hudi Schema Evolution 中的增加字段问题more对于某些文件类型，如ORC不存在该问题，而对于 Parquet、Text ，只有在已有分区下插入数据是，新增字段查询才为 NULL, 新增的分区正常。

overfit同步小助手 2024-05-27 23:04:02 0 收藏

csv数据导入hive表

overfit同步小助手 2024-05-27 21:03:42 0 收藏

Hive-源码分析一条hql的执行过程

1、用户在hive客户端输入hql2、进行中断操作，终止正在运行的mr作业3、解析用户在hive客户端输入的hql（将hql按照字符一个一个处理，遇到 ";" 就会将前面的处理成一个hql 放入列表中）4、循环执行hql列表中的每一条hql5、从sql语句中剥离注释，并去掉头尾空白符并按照 '\\

overfit同步小助手 2024-05-27 19:03:22 0 收藏

HDFS 跨集群数据同步（hive,hadoop）

echo "${db_name}.${table_name} ${part_date} 迁移开始"echo "${db_name}.${table_name} ${part_date} 迁移完成"两个不同的HDFS 集群数据迁移( A集群的数据 -> B 集群) 采用的是 SHELL 脚本。#计算两

overfit同步小助手 2024-05-27 18:03:42 0 收藏

搭建Hive 3.x环境（CentOS 9 + Hadoop3.x）

本文介绍了Hive的详细安装过程，包括本地模式和远程模式两种配置方式，并采用cli和beeline两种方式进行了测试，文末提供了对应的网盘资源。

overfit同步小助手 2024-05-27 16:03:49 0 收藏

Hive 与 SQL 标准和主流 SQL DB 的语法区别

Hive是一种基于Hadoop的数据仓库软件，可以将结构化数据文件映射为一张数据库表，并提供了类SQL查询接口，使得用户可以使用SQL类语言来查询数据。Hive可以处理包括文本、CSV、JSON、ORC和Parquet等格式的数据文件，支持数据的导入、导出、转换等操作。Hive可以在Hadoop集群

overfit同步小助手 2024-05-27 13:04:02 0 收藏

分布式SQL计算Hive入门（黑马程序员）Day2

Hive是一个基于Hadoop的数据仓库系统，它提供了类似于SQL的查询语言HiveQL，可以将结构化数据存储在Hadoop分布式文件系统中，并通过MapReduce进行过处理。作用：删除参数指定的文件和目录，参数可以有多个，删除目录需要加-r参数如果指定-skipTrash选项，那么在回收站可

overfit同步小助手 2024-05-27 05:03:45 0 收藏

Hive中UNION ALL和UNION的区别

Hive官方提供了一种联合查询的语法，原名为Union Syntax，用于联合两个表的记录进行查询，此处的联合和join是不同的，join是将两个表的字段拼接到一起，而union是将两个表的记录拼接在一起。换言之， join是用于左右拼接，而union是用于上下拼接。联合查询方式UNIONUNION

overfit同步小助手 2024-05-27 00:03:56 0 收藏

Hive的索引

Hive支持索引，但是Hive的索引与关系型数据库中的索引并不相同，比如，Hive不支持主键或者外键。Hive索引可以建立在表中的某些列上，以提升一些操作的效率，例如减少MapReduce任务中需要读取的数据块的数量。在可以预见到分区数据非常庞大的情况下，分桶和索引常常是优于分区的。而分桶由于SMB

overfit同步小助手 2024-05-26 20:03:53 0 收藏