大数据 Hive - overfit.cn

Spark-SQL连接Hive 的五种方法

overfit同步小助手 2023-05-22 15:04:55 0 收藏

Hudi-集成 Hive

一般来说 Hudi 表在用 Spark 或者 Flink 写入数据时会自动同步到 Hive 外部表（同6.2），此时可以直接通过 beeline 查询同步的外部表，若写入引擎没有开启自动同步，则需要手动利用 hudi 客户端工具 run_hive_sync_tool.sh 进行同步，具体后面介绍。

overfit同步小助手 2023-05-20 11:04:10 0 收藏

hive 随机抽样 distribute by rand() sort by rand() limit n

hive表随机抽样 distribute by rand() sort by rand() 以及分层抽样

overfit同步小助手 2023-05-20 10:04:00 0 收藏

实验6 熟悉Hive的基本操作

一、实验目的（1）理解Hive作为数据仓库在Hadoop体系结构中的角色。（2）熟练使用常用的HiveQL。二、实验平台操作系统：Ubuntu18.04（或Ubuntu16.04）。Hadoop版本：3.1.3。Hive版本：3.1.2。JDK版本：1.8。三、数据集由《Hive编程指南》(O’Re

overfit同步小助手 2023-05-20 10:03:53 0 收藏

Hive数据分析实验报告

用户行为日志user_log.csv，日志中的字段定义如下：（1）查看user_log表数据结构（2）查看user_log表简单数据结构（3）查看日志前10个交易日志的商品品牌（4）查询前20个交易日志中购买商品时的时间和商品的种类（5）用聚合函数count()计算出表内有多少条行数据（6）在函数内

overfit同步小助手 2023-05-19 11:03:49 0 收藏

Hive SQL 中 map, reduce 的数据血缘分析

在数据血缘分析中对这些 Hive SQL 特有的 SQL 语法的支持，是马哈鱼数据血缘关系分析工具和一般数据血缘分析工具的一个重要区别，对这些特殊 SQL 语法的支持，为企业的数据治理提供了完整的数据血缘，可以更好的提高数据质量，让企业的海量数据的在数据挖掘和智能分析中发挥更大的作用。如果你正在使用

overfit同步小助手 2023-05-19 08:04:17 0 收藏

Linux虚拟机安装Hive(mysql安装)

Hive发展至今，总共历经了两代客户端工具第一代客户端（deprecated不推荐使用）：$HIVE_HOME/bin/hive, 是一个 shellUtil。主要功能：一是可用于以交互或批处理模式运行Hive查询；二是用于Hive相关服务的启动，比如metastore服务。第二代客户端（reco

overfit同步小助手 2023-05-18 04:03:44 0 收藏

Hive之grouping sets用法详解

比如(class, course), 二进制为 101，十进制则为5，则grouping__id为5，同理grouping__id为6，则组合为（sex,course），二进制为110；比如 group by class,sex,course,则二进制的顺序为：course sex cl

overfit同步小助手 2023-05-17 20:03:57 0 收藏

【hadoop——Hive的安装和配置】保姆式教学

目录一.Hive的安装和配置1.Hive并不是hadoop自带的组件，因此我们需要去下载hive，此次课我们使用hive 1.2.1版本，下载地址为：2.下载完成之后，安装包默认保存在下载文件夹中，解压安装包apache-hive-1.2.1-bin.tar.gz至路径 /usr/local，命令如

overfit同步小助手 2023-05-17 00:03:38 0 收藏

hive大作业-餐饮外卖平台数据分析

1、背景W餐饮外卖平台向广大用户提供网上订餐服务，其市场占有量在近年不断增加。当用户在W平台订餐完成后，平台会引导用户对于品尝过的菜品进行评价打分，最高为5分，最低为1分。通过用户的评分数据，可以分析外卖平台的受欢迎度、客户的体验度。数据说明用户评分数据（mealrating.txt）属性名称

overfit同步小助手 2023-05-16 20:03:57 0 收藏

Hive字符串转日期细节

Hive日期函数的使用注意事项，date_format() ;to_date(); from_unixtime(unix_timestamp())的使用案例

overfit同步小助手 2023-05-16 10:04:03 0 收藏

Hive元数据信息获取

放到mysql中存储，mysql中默认表被创建的时候用的是默认的字符集(latin1)，所以会出现中文乱码。（2）修改hive-site.xml中Hive读取元数据的编码（注意原先是否配置过）注意的是，之前创建的表的元数据已经损坏了，所以无法恢复中文乱码，只能重新创建表。

overfit同步小助手 2023-05-15 17:03:49 0 收藏

一百零六、Hive312的计算引擎由MapReduce(默认)改为Spark（亲测有效）

Hive312的计算引擎由MapReduce(默认)改为Spark

overfit同步小助手 2023-05-15 03:03:52 0 收藏

Hive本地开发/学习环境配置

这样就启动了metastore服务，可以通过jps命令查看，是否存在RunJar的进程，存在则说明启动成功，再通过hive客户端连接即可。该服务依赖于metastore服务，所以，在启动hiveserver2之前，一定确保已经启动了metastore服务，这时，可以通过。，启动后，通过jps命令查看

overfit同步小助手 2023-05-14 21:03:43 0 收藏

SQL日期函数汇总

**SQL日期函数汇总**1、 to date：日期时间转日期函数 select to date(‘2015-04-02 13:34:12’);输出: 2015-04-022、from unixtime：转化unix时间戳到当前时区的时间格式 select from_unixtime(1323308

overfit同步小助手 2023-05-14 18:04:03 0 收藏

Flink SQl 客户端-Catalog(hive的catalog是重点)

4、Flink SQl 客户端1、启动一个flink的集群可以使用flink独立集群也可以使用yarn-session.sh# 启动一个flinkyarn-sesion集群yarn-sesion.sh -d2、启动sql-clientsql-client.sh3、测试命令行-- 创建source表

overfit同步小助手 2023-05-14 15:03:42 0 收藏

Hive 窗口函数超详细教程

在SQL开发中，有时我们可以使用聚合函数将多行数据按照规则聚集在一行，但是我们又想同时得到聚合前的数据，单纯的聚合函数是做不到的，怎么办呢？这时我们的窗口函数就闪亮登场了。窗口函数兼具分组和排序功能，又叫分析函数！主要对Hive窗口函数进行详解，剖析各种窗口函数的使用方法，并且根据窗口函数综合案例进

overfit同步小助手 2023-05-14 02:03:47 0 收藏

【大数据入门核心技术-Flume】（四）使用Flume采集数据到Hive

rw-r--r--. 1 testuser supergroup 2747878 9月 10 2019 /usr/local/hadoop-3.2.1/share/hadoop/common/lib/guava-27.0-jre.jar。-rw-r--r--. 1 root root 164820

overfit同步小助手 2023-05-13 11:03:43 0 收藏

Hive动态分区和分桶使用场景和使用方法

按照数据表的某列或某些列分为多个分区，分区从形式上可以理解为文件夹，比如我们要收集某个大型网站的日志数据，一个网站每天的日志数据存在同一张表上，由于每天会生成大量的日志，导致数据表的内容巨大，在查询时进行全表扫描耗费的资源非常多。那其实这个情况下，我们可以按照日期对数据进行分区，不同日期的数据

overfit同步小助手 2023-05-12 21:03:50 0 收藏

Hive安装与配置及常见问题解决

对Hadoop系统的hive组件的安装与配置

overfit同步小助手 2023-05-12 17:03:46 0 收藏