大数据 Hive - overfit.cn

大数据开发之Hive案例篇10-大表笛卡尔积优化

我们需要求每一个start_date的累积数量，那么此时我们可以先求每天的，然后求每天累积的，再求当天每一个start_date累积的，加上前一日的累积的，就是最终我们需要的数据。就算数据量提升数倍，因为 join的条件由一个 data_source 变为了两个 data_souce 、dt，大大减

overfit同步小助手 2023-06-23 13:04:25 0 收藏

iceberg的java api使用

【前言】了解一个组件的最好方式是先使用该组件，今天我们就来聊聊如何通过java api对iceberg进行操作。为什么是选择api进行介绍，而不是更通用的flink、spark、hive等。一方面是觉得flink、spark使用iceberg的介绍网上已经有很多，官网的介绍也比较清晰，而java a

overfit同步小助手 2023-06-23 01:04:20 0 收藏

Hadoop/Hive/Spark小文件处理

小文件指的是文件size比HDFS的block size小很多的文件。Hadoop适合处理少量的大文件，而不是大量的小文件。首先，在HDFS中，任何block，文件或者目录在内存中均以对象的形式存储，每个对象约占150byte，如果有1000 0000个小文件，每个文件占用一个block，则name

overfit同步小助手 2023-06-22 09:04:40 0 收藏

Hive（3）

hive3

overfit同步小助手 2023-06-21 21:04:03 0 收藏

使用sqoop从Hive导出数据到MySQL

2、启动mysql：support-files/mysql.server start。8、数据可视化（前端）需求：Tom选修了哪些课程，对应的每门课程有多少学分。（课程信息：课程号kch，学号xh，课程名称kcmc，学分xf）kcxx。其次：使用sqoop从hdfs上将分析好的数据导出到mysql中

overfit同步小助手 2023-06-21 19:04:28 0 收藏

hive 分桶文件的大小多大最合适

另一方面，如果某个列包含许多唯一值，例如包含顾客 ID 的列，这可能不是一个好的分桶字段，因为这可能会导致分桶数量过多，从而降低查询效率。在 Hive 中，选择分桶字段时，考虑到分桶字段的值将被用于对数据进行分区，因此选择较少离散值的列作为分桶字段可以提高查询效率。同时，指定适当的分桶数也很重要，应

overfit同步小助手 2023-06-21 03:04:16 0 收藏

Hive 和 Oracle 中 Decode 函数的用法差异

在数仓构建过程中，需要从业务那边进行数据的迁移！数仓大多数公司都是使用Hive，而业务那边使用的是Oracle数据库居多。最近就有个小伙伴在迁移的时候碰到了问题：从报错来看，在使用Decode()函数的时候，传参有问题！既然问题来了，我们就来解决一下呗，只有不断地解决问题，才能体现出价值！在平时的数

overfit同步小助手 2023-06-20 04:04:19 0 收藏

Hive、Hbase、TiDB、Gbase的区别

在数据库不断发展的今天，尤其是大数据技术的发展，不断的涌现出各种海量数据存储及分析的数据库及相关工具令人演化缭乱，有的基于Hadoop构建，有的基于分布式理论自行构建，但是这些工具和数据库之间究竟有什么区别，都使用于什么场景，在查询了相关材料之后我进行了一个简单的总结，以备后用

overfit同步小助手 2023-06-18 11:04:28 0 收藏

【Hive】安装配置及导入Hdfs数据

一文带你了解Hive的安装配置，供大家参考！

overfit同步小助手 2023-06-18 01:04:07 0 收藏

hive使用时的用户权限问题

Execution Error, return code 1 from;ljr is not allowed to add roles;Permission denied: Principal [name=ljr, type=USER] does not have following privile

overfit同步小助手 2023-06-17 11:04:23 0 收藏

hive之Map Join使用方法

介绍MAPJION会把小表全部加载到内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配，由于在map端是进行了join操作，省去了reduce运行的时间，算是hive中的一种优化。如上图中的流程，首先Task A在客户端本地执行，负责扫描小表b的数据，将其转换成一个HashTable的数

overfit同步小助手 2023-06-15 16:04:00 0 收藏

如何使用 SeaTunnel 同步 MySQL 数据到 Hive

连接器文档可以参考这里👉https://seatunnel.apache.org/docs/2.3.0-beta/connector-v2/source/Jdbc、https://seatunnel.apache.org/docs/2.3.0-beta/connector-v2/sink/Hive

overfit同步小助手 2023-06-15 15:04:16 0 收藏

【Hive】各种join连接用法

hive join连接的各种用法

overfit同步小助手 2023-06-15 09:04:02 0 收藏

Hive数据清洗中常见的几个函数

在Hive中，数据清洗是一个重要的任务之一，通常涉及到对数据进行过滤、修改和转换等操作，以使其更易于使用和分析。常用的数据清洗技术包括：数据去重、空值填充、数据格式化、数据类型转换、数据分区等。

overfit同步小助手 2023-06-14 18:04:10 0 收藏

大数据组件的区别总结（hive，hbase，spark，flink）

介绍了hive和spark的区别，spark和flink的区别和hive和hbase的区别。

overfit同步小助手 2023-06-14 09:04:20 0 收藏

一文速学-HiveSQL解析JSON数据详解+代码实战

JSON文件存储格式十分常见，在各个数据库中以及业务场景都有关于该文件的处理方式。但是有时候处理JSON文件在不同的数据库处理方法也不同，掌握一些高效的函数可以大大简化我们处理JSON数据格式的效率。面对一些复杂的存储形式，例如JSON数组存储这种就必须采取一定的处理方式，下面是处理HiveSQL解

overfit同步小助手 2023-06-13 06:03:54 0 收藏

【Hive+MySQL+Python】淘宝用户购物行为数据分析项目

user_data.csv是一份用户行为数据，时间区间为2017-11-25到2017-12-03，总计29132493条记录，大小为1.0G，包含5个字段。数据集的每一行表示一条用户行为，由用户ID、商品ID、商品类目ID、行为类型和时间戳组成，并以逗号分隔。

overfit同步小助手 2023-06-13 02:03:39 0 收藏

大数据Doris（三十八）：Spark Load 导入Hive数据

导入Hive分区表数据到对应的doris分区表就不能在doris中创建hive外表这种方式导入，因为hive分区列在hive外表中就是普通列，所以这里我们使用Spark Load 直接读取Hive分区表在HDFS中的路径，将数据加载到Doris分区表中。使用Spark Load 将Hive非分区表中

overfit同步小助手 2023-06-12 08:03:40 0 收藏

一百一十一、Hive——从HDFS到Hive的数据导入（静态分区、动态分区）

从HDFS到Hive的数据导入（静态分区、动态分区）

overfit同步小助手 2023-06-11 13:04:19 0 收藏

HDFS小文件治理方案

overfit同步小助手 2023-06-11 02:03:57 0 收藏