Hive - overfit.cn

【大数据进阶第三阶段之Hive学习笔记】Hive安装

安装hadoop 以及 zookeeper、mysql《zookeeper的安装与配置》《Linux环境配置MySQL》

overfit同步小助手 2024-01-29 05:03:16 0 收藏

大数据-hive基本语法整理

hive基本语法一、hive建表语句create external table if not exists ods_base_org_info( id string comment '主键', org_code string comment

overfit同步小助手 2024-01-29 03:03:35 0 收藏

Hive实战：词频统计

通过这一系列的操作，我们深入学习了Hive的外部表创建、数据加载、查询、视图创建以及统计分析的操作。字段的内容按照空格分割成多个单词，并生成一个多行的结果集，每行包含一个单词。函数则将这个分割后的数组转换为多行记录，即每一行对应原字符串中的一个单词。统计每个单词分组的数量，结果将展示每个单词及其在原

overfit同步小助手 2024-01-29 03:03:23 0 收藏

8-Hive原理与技术

题目3：Hive分区字段不能与已存在字段重复，且分区字段是一个虚拟的字段，它不存放任何数据，该数据来源于装载分区表时所指定的数据文件。题目2：Sqoop是关系型数据库与Hadoop之间的数据桥梁，这个桥梁的重要组件是Sqoop连接器。题目3：Hive最重视的性能是可测量性、延展性、对于输入格式的宽松

overfit同步小助手 2024-01-29 01:03:54 0 收藏

大数据Hadoop教程-学习笔记06【Hadoop生态综合案例：陌陌聊天数据分析】

overfit同步小助手 2024-01-28 14:03:50 0 收藏

【DolphinScheduler】datax读取hive分区表时，空分区、分区无数据任务报错问题解决

【DolphinScheduler】datax读取hive分区表时，空分区、分区无数据任务报错问题解决。最近在使用海豚调度DolphinScheduler的Datax组件时，遇到这么一个问题：之前给客户使用海豚做的离线数仓的分层搭建，一直都运行好好的，过了个元旦，这几天突然在数仓做任务时报错

overfit同步小助手 2024-01-28 05:03:33 0 收藏

Hive外表创建和加载数据

由于我们的源数据目录没有显示的指定分区字段，因此建表的时候没有指定 location，通过 load data inpath 命令来装载数据。1、load data 命令会移动数据2、load data inpath … overwrite 命令使用不当会导致数据被覆盖。3、通过 alter tab

overfit同步小助手 2024-01-28 03:03:36 0 收藏

Hive csv文件导入Hive

【代码】Hive csv文件导入Hive。

overfit同步小助手 2024-01-28 01:03:43 0 收藏

Hive-SQL语法大全

]，表示可选，如上[LOCATION]表示可写、可不写，表示或，如上ASC | DESC，表示二选一…，表示序列，即未完结，如上表示在SELECT后可以跟多个，以逗号隔开()，表示必填，如上(A | B | C)表示此处必填，填入内容在A、B、C中三选一。

overfit同步小助手 2024-01-27 07:03:33 0 收藏

【Hive_03】单行函数、聚合函数、窗口函数、自定义函数、炸裂函数

Hive会将常用的逻辑封装成函数给用户进行使用，类似于Java中的函数。好处：避免用户反复写逻辑，可以直接拿来使用。重点：用户需要知道函数叫什么，能做什么。Hive提供了大量的内置函数，按照其特点可大致分为如下几类：单行函数、聚合函数、炸裂函数、窗口函数。以下命令可用于查询所有内置函数的相关信息。1

overfit同步小助手 2024-01-26 20:03:48 0 收藏

HiveSQL基础命令02

分区是针对文件夹（内部文件例如.txt也会被分），原理和SQL的group by类似,是将原表中一个或多个文件，通过给新字段对应原表字段分区，分成多个文件夹存放文件，存放到分区表中，这样在扫描特定文件（以分区字段来查询）的时候不需要全盘扫描。3. 分桶规则用的是: 哈希取模分桶法, 简单来说, 就是

overfit同步小助手 2024-01-26 20:03:35 0 收藏

任务15：使用Hive进行全国气象数据分析

任务描述任务指导。

overfit同步小助手 2024-01-25 20:03:51 0 收藏

Hive HWI 配置

1、下载安装好hive后，发现hive有hwi界面功能，研究下是否可以运行，于是使用hive –service hwi命令启动hwi界面报错。启动hwi功能2、访问192.168.126.110:9999/hwi，发现访问错误一、HWI介绍HWI）是Hive-2-1版本之前的源码中提供的网页控制台工

overfit同步小助手 2024-01-24 21:03:43 0 收藏

Hive表操作

external , 创建外部表partitioned by，分区表clustered by , 分桶表stored as , 存储格式location ，存储位置2.数据类型分类类型描述字面量示例原始类型TINYINT1字节的有符号整数 -128~1271YSMALLINT2字节的有符号整数 -

overfit同步小助手 2024-01-24 17:03:32 0 收藏

Hive行转列[一行拆分成多行/一列拆分成多列]

hive有张表armmttxn_tmp，其中有一个字段lot_number，该字段以逗号分隔开多个值，每个值又以冒号来分割料号和数量，如：A3220089:-40,A3220090:-40,A3220091:-40,A3220083:-40,A3220087:-40,A3220086:-40,A32

overfit同步小助手 2024-01-24 13:03:48 0 收藏

Hive窗口函数整理

Hive 中的窗口函数允许你在结果集的一个特定“窗口”内对行进行计算。这些窗口可以是物理的（基于行在数据中的实际位置）或逻辑的（基于行的一些排序标准）。窗口函数在处理排名、计算累计和或计算移动平均值等问题时特别有用。这只是 Hive 中窗口函数的一个简短列表。当与其他 SQL 功能（如分区、排序和子

overfit同步小助手 2024-01-24 02:03:32 0 收藏

Hive的四种排序方法

hive有四种排序方法: ORDER BY 、SORT BY 、DISTRIBUTE BY 、CLUSTER BY。hive排序方法,hive的排序方式。

overfit同步小助手 2024-01-23 21:03:51 0 收藏

【sentry 到 ranger 系列】一、Sentry 的 Hive 鉴权插件

代码走读 + 图文并茂，直击 Sentry 的 Hive 鉴权插件灵魂深处

overfit同步小助手 2024-01-23 11:03:36 0 收藏

大数据系统常用组件理解（Hadoop/hive/kafka/Flink/Spark/Hbase/ES）

Spark streaming接收kafka、Flume、HDFS、套接字等各种来源实时输入数据，进行处理，处理后结构数据可存储到文件系统、数据库，或显示在可视化图像中；Hive 是构建在Hadoop HDFS上的数据仓库，可以将结构化的数据文件映射成一张数据库表，并提供类SQL查询功能，主要完成海

overfit同步小助手 2024-01-23 06:03:44 0 收藏

大数据数仓建模基础理论【维度表、事实表、数仓分层及示例】

数据仓库建模（Data Warehouse Modeling）是指在数据仓库（Data Warehouse）中组织和设计数据的过程，以便支持数据分析、报告和决策制定。数据仓库是一个集成的、主题导向的数据存储，用于存储来自不同来源的数据，经过清洗、转换和集成，以支持业务分析和决策。主要目标是创建一个能

overfit同步小助手 2024-01-22 16:03:55 0 收藏