大数据 Hive - overfit.cn

Hive3.1.3基础

1）Hive简介Hive是由Facebook开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。那为什么会有Hive呢？它是为了解决什么问题而诞生的呢？下面通过一个案例，来快速了解一下Hive。例如：需求，统计单词出现个数。（1）在Hadoop中用M

overfit同步小助手 2024-02-21 15:03:18 0 收藏

解决hive表新增的字段查询为空null问题

这是怎么回事，怀疑是不是数据没有插入成功，于是查看日志确实是写入成功了，后换了impala和presto 两种引擎查询，发现两个结果都有值，如果直接到目录下查看数据文件会发现确实有值。第二种方案，要是我们表里有很多分区，这样处理就显得有些繁琐了，不知有没有更优雅的处理方式，答案是肯定的，那就是在修改

overfit同步小助手 2024-02-21 10:03:40 0 收藏

将Sqoop与Hive集成无缝的数据分析

将Sqoop与Hive集成是在大数据环境中实现无缝数据分析的关键一步。Sqoop可以轻松地将关系型数据库中的数据导入到Hive中，以便进行高级数据分析和查询。希望本文提供的示例代码和详细内容有助于大家更好地理解和应用Sqoop与Hive的集成技术。

overfit同步小助手 2024-02-21 06:03:50 0 收藏

Hive调优

Hive调优总结:1. 改硬件.2. 开启或者增大某些设置(配置). 负载均衡, 严格模式(禁用低效SQL), 动态分区数...3. 关闭或者减小某些设置(配置). 严格模式(动态分区), 推测执行...4. 减少IO传输. Input(输入)

overfit同步小助手 2024-02-20 23:03:58 0 收藏

(10)Hive的相关概念——文件格式和数据压缩

Hive的相关概念——文件格式和数据压缩

overfit同步小助手 2024-02-20 23:03:44 0 收藏

(01)Hive的相关概念——架构、数据存储、读写文件机制

Hive的相关概念——架构、数据存储、读写文件机制

overfit同步小助手 2024-02-19 23:03:45 0 收藏

Hive SQL 的 DQL操作

3. Hive 支持分桶查询, cluster by + 分桶排序字段 (分桶排序必须是同一字段,且排序只能是升序),如果只分桶用 distribute by + 分桶字段 ,如果分桶和排序不是同一字段就用 distribute by + 分桶字段 sort by + 排序字段 asc | desc

overfit同步小助手 2024-02-19 20:03:54 0 收藏

（三）hadoop之hive的搭建1

5.1上传mysql驱动mysql-connector-java-8.0.21.jar并移动到/usr/local/apache-hive-3.1.3/lib/5.2在/usr/local/apache-hive-3.1.3/conf下新增hive-site.xml文件。点击https://dlcd

overfit同步小助手 2024-02-19 20:03:27 0 收藏

hive2

注意：(‘EXTERNAL’=‘TRUE’)和(‘EXTERNAL’=‘FALSE’)为固定写法，区分大小写！map keys terminated by ‘:’ – MAP 中的 key 与 value 的分隔符。要为表指定列，用户在指定表的列的同时也会指定自定义的 SerDe，Hive 通过 S

overfit同步小助手 2024-02-19 16:03:54 0 收藏

(05) Hive的相关概念——函数介绍

HiveSQL的基础知识点

overfit同步小助手 2024-02-19 14:03:39 0 收藏

Sqoop数据导入到Hive表的最佳实践

Sqoop是一个开源工具，用于在Hadoop生态系统中的数据存储（如HDFS）和关系型数据库之间传输数据。它可以帮助数据工程师和分析师轻松地将结构化数据从关系型数据库导入到Hadoop集群中，以供进一步的数据处理和分析。将数据从关系型数据库导入到Hive表是大数据分析中的关键步骤之一。本文提供了Sq

overfit同步小助手 2024-02-19 11:03:47 0 收藏

Hive的几种排序方式、区别，使用场景

ORDER BY：全局排序，但性能较差，适用于小数据集。SORT BY：在每个 Reducer 内部排序，性能较好，但不保证全局排序。：控制如何分发数据到 Reducer。CLUSTER BY和SORT BY的组合，当两者字段相同时使用。

overfit同步小助手 2024-02-19 01:03:17 0 收藏

Hive表加工为知识图谱实体关系表标准化流程

加工原则是从Hive的原数据表中抽取出导图所用的实体和关系字段，包括重要的属性描述字段，最后导入图数据库。

overfit同步小助手 2024-02-19 00:03:30 0 收藏

Hive之set参数大全-22(完)

在 Hive 中，是一个配置参数，用于指定是否启用矢量化处理复杂数据类型。该参数用于控制是否启用 Hive 的矢量化执行引擎对复杂数据类型（例如结构体、数组、映射等）进行矢量化处理。矢量化执行是一种通过同时处理多个数据元素来提高查询性能的技术。默认情况下，的值通常是未设置的，由 Hive 使用其默认

overfit同步小助手 2024-02-18 13:03:37 0 收藏

Hive分区表实战 - 单分区字段

本实战演练全面展示了如何在Hive中创建和管理分区表，通过实际操作演示了数据按国别分区存储、加载与查询的全过程。从创建`book`表开始，依次完成了数据文件准备、分区数据加载、分区查看及更新元数据等任务，并进一步演示了分区的增删改查操作，最后通过MySQL查看Hive Metastore中记录的分区

overfit同步小助手 2024-02-18 08:03:46 0 收藏

hive中array相关函数总结

sort_array 函数可以用于对 Array 对象中的元素进行排序。具体来说，sort_array 函数会将 Array 对象中的元素按照升序顺序进行排序，并返回一个新的排序后的 Array 对象。explode 函数可以用于将一个 Array 对象拆分成多行。具体来说，explode 函数会将

overfit同步小助手 2024-02-18 07:03:56 0 收藏

(13)Hive调优——动态分区导致的小文件问题

Hive——动态分区导致的小文件问题

overfit同步小助手 2024-02-18 01:03:28 0 收藏

构建强大的大数据生态系统：Hive集群搭建与配置详细指南

overfit同步小助手 2024-02-17 17:03:39 0 收藏

HiveSQL题——排序函数(row_number/rank/dense_rank)

overfit同步小助手 2024-02-17 01:03:56 0 收藏

Oracle mysql 达梦大金仓 hive 区别

Oracle数据库：MySQL数据库：达梦数据库：大金仓数据库：Hive数据库：相同点：不同点：sql区别：

overfit同步小助手 2024-02-16 17:03:26 0 收藏