大数据 Hive - overfit.cn

Hive 中 sort by 和 order by 的区别

在 Hive 中，SORT BY和ORDER BY都用于对查询结果进行排序，但它们在实现方式和适用场景上有一些区别。

overfit同步小助手 2023-10-08 22:04:07 0 收藏

配置开启Hive远程连接

使用IDEA工具远程连接Hive，首先需要配置开启Hive远程连接支持，主要有2种方式来配置开启Hive远程连接。

overfit同步小助手 2023-10-08 05:03:17 0 收藏

Hive的基本SQL操作（DDL篇）

Hive SQL(HQL)与SQL的语法大同小异,基本上是相通的,学过SQL的使用者可以无痛使用Hive SQL。只不过在学习HQL语法的时候,特别要注意Hive自己特有的语法知识点，今天我们就来学习下Hive SQL的DDL语句

overfit同步小助手 2023-10-05 14:03:45 0 收藏

hive--给表名和字段加注释

增加之后的注释，会在元数据库（一般在MySQL 中的 hive 库）中的 TABLE_PARAMS 表中显示，该表存储表/视图的属性信息。注意：comment一定要是小写的，不能是COMMENT，且必须要加单引号！4.字段名修改添加注释。

overfit同步小助手 2023-10-04 13:03:25 0 收藏

【hive】hive分桶表的学习

每一个表或者分区，hive都可以进一步组织成桶，桶是更细粒度的数据划分，他本质不会改变表或分区的目录组织方式，他会改变数据在文件中的分布方式。

overfit同步小助手 2023-10-04 06:03:54 0 收藏

探索数据湖中的巨兽：Apache Hive分布式SQL计算平台浅度剖析！

对数据进行统计分析，SQL是目前最为方便的编程工具大数据体系中充斥着非常多的统计分析场景，所以，使用SQL去处理数据，在大数据中也是有极大的需求的MapReduce支持程序开发（Java、Python等），但不支持SQL开发Apache Hive是一款分布式SQL计算的工具将SQL语句翻译成Map

overfit同步小助手 2023-10-04 05:03:50 0 收藏

Hive 处理 13 位时间戳，得到年月日时分秒（北京时间）

Hive 处理 13 位时间戳，得到年月日时分秒（北京时间）使用 Hive 自带函数将 13位时间戳： 1682238448915 转成今天的时间（北京时间），格式样例：'2023-04-23 16:27:28'

overfit同步小助手 2023-10-03 01:04:00 0 收藏

【Hive/Spark】常见参数配置

（用于spark3中字段类型不匹配（例如datetime无法转换成date），消除sql中时间歧义，将Spark .sql. LEGACY . timeparserpolicy设置为LEGACY来恢复Spark 3.0之前的状态来转化）（4）set spark.sql.finalStage.adap

overfit同步小助手 2023-10-01 23:03:50 0 收藏

【大数据之Hive】二十五、HQL语法优化之小文件合并

小文件优化可以从两个方面解决，在Map端输入的小文件合并，在Reduce端输出的小文件合并。

overfit同步小助手 2023-10-01 11:03:53 0 收藏

Hive 的 UDF 函数（Python 版本）

Python 实现 Hive 的 UDF 函数其实非常的简单

overfit同步小助手 2023-10-01 00:03:22 0 收藏

Hive 和 HDFS、MySQL 之间的关系

Hive 使用 HDFS 作为其底层数据存储，将数据存储在 HDFS 中的文件和目录中，然后执行查询以从 HDFS 中检索和处理数据。在大数据环境中，MySQL 可能用于存储与 Hive 相关的元数据，例如 Hive 表的定义、分区信息和其他元数据。当用户将数据加载到 Hive 表时，数据通常会存储

overfit同步小助手 2023-09-30 10:03:56 0 收藏

Hive 数据仓库介绍

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。

overfit同步小助手 2023-09-29 18:03:44 0 收藏

基于华为云的在线拍卖数据分析

基于华为云服务器，实现在线数据拍卖分析萌新初次使用云服务器搭建Hadoop文件系统，使用Hive操作数据库，进行数据预测

overfit同步小助手 2023-09-29 17:03:49 0 收藏

Zeppelin(0.10.1版本)安装及创建hive解释器

在zepplin 使用hive解释器

overfit同步小助手 2023-09-28 21:04:55 0 收藏

hive/spark数据倾斜解决方案

数据倾斜主要表现在，mapreduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多)，这条Key所在的reduce节点所处理的数据量比其他节点就大很多，从而导致

overfit同步小助手 2023-09-27 14:03:47 0 收藏

大数据之使用Spark全量抽取MySQL的数据到Hive数据库

使用了spark对MySQL的数据进行操作并保存到了hive数据库，原理大同小异，spark提供了许多api供我们使用，非常的方便和灵活。本题来源于全国职业技能大赛之大数据技术赛项赛题-离线数据处理-数据抽取题目：编写Scala代码，使用Spark将MySQL的shtd_industry库中表Env

overfit同步小助手 2023-09-27 09:03:40 0 收藏

HiveSQL刷题

现有各直播间的用户访问记录表（live_events）如下，表中每行数据表达的信息为，一个用户何时进入了一个直播间，又在何时离开了该直播间。

overfit同步小助手 2023-09-26 08:03:24 0 收藏

【大数据之Hive】四、配置Hive元数据存储到MySQL

需求：把Hive元数据写道MySQL的metastore数据库中（MySQL默认没有metastore数据库，需要提前创建：create database metastore;连接地址：jdbc:mysql//hadoop102:3306/metastore驱动：com.mysql.cj.jdbc.

overfit同步小助手 2023-09-23 12:03:18 0 收藏

Hive的更新和删除

更新数据： Hive中的更新操作实际上是替换记录的过程。删除数据：在Hive中，您可以使用DELETE语句删除表中的数据。但是，与传统的关系型数据库不同，Hive实际上并不删除数据，而是将其标记为已删除。但是，这些操作的执行方式与传统的关系型数据库不同，因为Hive使用Hadoop的MapRedu

overfit同步小助手 2023-09-23 05:03:21 0 收藏

华为云云耀云服务器L实例评测｜在Docker环境下部署Hive数据库

这是Maynor华为云云耀云服务器L实例评测｜单节点环境下部署ClickHouse21.1.9.41数据库华为云云耀云服务器L实例评测｜伪分布式环境下部署hadoop2.10.1华为云云耀云服务器L实例评测｜在Docker环境下部署Hadoop云耀云服务器L实例是新一代的轻量应用云服务器

overfit同步小助手 2023-09-23 02:03:29 0 收藏