Hive - overfit.cn

hive使用时的用户权限问题

Execution Error, return code 1 from;ljr is not allowed to add roles;Permission denied: Principal [name=ljr, type=USER] does not have following privile

overfit同步小助手 2023-06-17 11:04:23 0 收藏

hive之Map Join使用方法

介绍MAPJION会把小表全部加载到内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配，由于在map端是进行了join操作，省去了reduce运行的时间，算是hive中的一种优化。如上图中的流程，首先Task A在客户端本地执行，负责扫描小表b的数据，将其转换成一个HashTable的数

overfit同步小助手 2023-06-15 16:04:00 0 收藏

如何使用 SeaTunnel 同步 MySQL 数据到 Hive

连接器文档可以参考这里👉https://seatunnel.apache.org/docs/2.3.0-beta/connector-v2/source/Jdbc、https://seatunnel.apache.org/docs/2.3.0-beta/connector-v2/sink/Hive

overfit同步小助手 2023-06-15 15:04:16 0 收藏

【Hive】各种join连接用法

hive join连接的各种用法

overfit同步小助手 2023-06-15 09:04:02 0 收藏

Hive数据清洗中常见的几个函数

在Hive中，数据清洗是一个重要的任务之一，通常涉及到对数据进行过滤、修改和转换等操作，以使其更易于使用和分析。常用的数据清洗技术包括：数据去重、空值填充、数据格式化、数据类型转换、数据分区等。

overfit同步小助手 2023-06-14 18:04:10 0 收藏

大数据组件的区别总结（hive，hbase，spark，flink）

介绍了hive和spark的区别，spark和flink的区别和hive和hbase的区别。

overfit同步小助手 2023-06-14 09:04:20 0 收藏

一文速学-HiveSQL解析JSON数据详解+代码实战

JSON文件存储格式十分常见，在各个数据库中以及业务场景都有关于该文件的处理方式。但是有时候处理JSON文件在不同的数据库处理方法也不同，掌握一些高效的函数可以大大简化我们处理JSON数据格式的效率。面对一些复杂的存储形式，例如JSON数组存储这种就必须采取一定的处理方式，下面是处理HiveSQL解

overfit同步小助手 2023-06-13 06:03:54 0 收藏

【Hive+MySQL+Python】淘宝用户购物行为数据分析项目

user_data.csv是一份用户行为数据，时间区间为2017-11-25到2017-12-03，总计29132493条记录，大小为1.0G，包含5个字段。数据集的每一行表示一条用户行为，由用户ID、商品ID、商品类目ID、行为类型和时间戳组成，并以逗号分隔。

overfit同步小助手 2023-06-13 02:03:39 0 收藏

大数据Doris（三十八）：Spark Load 导入Hive数据

导入Hive分区表数据到对应的doris分区表就不能在doris中创建hive外表这种方式导入，因为hive分区列在hive外表中就是普通列，所以这里我们使用Spark Load 直接读取Hive分区表在HDFS中的路径，将数据加载到Doris分区表中。使用Spark Load 将Hive非分区表中

overfit同步小助手 2023-06-12 08:03:40 0 收藏

一百一十一、Hive——从HDFS到Hive的数据导入（静态分区、动态分区）

从HDFS到Hive的数据导入（静态分区、动态分区）

overfit同步小助手 2023-06-11 13:04:19 0 收藏

HDFS小文件治理方案

overfit同步小助手 2023-06-11 02:03:57 0 收藏

数据治理（十五）：Ranger管理Hive安全

访问Hive有两种方式：HiveServer2和Hive Client，Hive Client需要Hive和Hadoop的jar包，配置环境。HiveServer2使得连接Hive的Client从Yarn和HDFS集群中独立出来，不需要每个节点都配置Hive和Hadoop的jar包和一系列环境。Ra

overfit同步小助手 2023-06-10 05:07:41 0 收藏

窗口函数简介与总结

窗口函数是 SQL 中一类特别的函数。和聚合函数相似，窗口函数的输入也是多行记录。不同的是，聚合函数的作用于由 GROUP BY 子句聚合的组，而窗口函数则作用于一个窗口，这里，窗口是由一个 OVER 子句定义的多行记录。聚合函数对其所作用的每一组记录输出一条结果，而窗口函数对其所作用的窗口

overfit同步小助手 2023-06-10 03:03:39 0 收藏

HIVE/SQL 实现同一列数据累加和累乘

以上是对数的一些运算性质，其中我重点圈出了两个性质，这将是我们使用 hive sql 实现同一列数据累乘的关键；1）左边的红框中，两个底数(a)相同的对数相加 = 以a为底(N*M)的对数，其中(N*M)就是我们想要的计算结果，应该如何获取(N*M)呢？2）看右边红框的性质，我们可以利用这个性质获取

overfit同步小助手 2023-06-09 14:03:41 0 收藏

hive数据仓库--Hive介绍

hive

overfit同步小助手 2023-06-09 07:03:42 0 收藏

HIVE总结

一：hive作用Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。Hive本质：将HQL转化成MapReduce程序（1）Hive处理的数据存储在HDFS（2）Hive分析数据底层的实现是MapReduce（3）执行程序运行在Yarn上1.1：

overfit同步小助手 2023-06-08 17:03:42 0 收藏

基于Hadoop的项目实战-职位数据综合分析

一、数据采集（selenium）from selenium import webdriverimport timeimport reimport pandas as pdimport os在爬取的过程中可能会有登陆弹窗，要先定义一个处理弹窗的函数def close_windows(): #如果

overfit同步小助手 2023-06-08 07:03:49 0 收藏

hive表新增字段，指定新增字段位置，删除字段

经验证，hive中修改字段顺序并没有将字段对应的值移动，只是单纯的修改字段名，如果是空表（没有数据），可以使用以上两步；其中CASCADE选项为选填的字段，但是对于分区表，一定要加上，否则其历史分区的元数据信息(metadata)将无法正常更新，导致访问历史分区时会报莫名的错误。背景：项目中，客户使

overfit同步小助手 2023-06-08 06:03:50 0 收藏

hive表数据更新insert overwrite/merge into

根据甲方要求，需要对大数据平台指定表(hive、impala表)的历史数据[2021-01-01至2023-03-29]指定字段进行批量更新，然后把表同步到Oracle。hive有8张表更新，其中4张大表【分区表】（数据量分别为：1038738976、260958144、25860509、28670

overfit同步小助手 2023-06-08 04:03:34 0 收藏

docker快速部署hue+hue集成hive

首先需要安装hive，hive的安装在安装完成之后，使用脚本命令启动hdfs和hive的相关服务。

overfit同步小助手 2023-06-07 22:03:38 0 收藏