Hive - overfit.cn

【Hive SQL】时间戳格式化、时间字符串转换格式化、时区切换（Mysql\Hive SQL\Athena）

本文主要记录 [Mysql\ Hive SQL\ Athena] 时间戳转换、日期格式化、时区转换各种数据数据操作

overfit同步小助手 2024-07-27 05:03:52 0 收藏

HIVE基本数据类型

overfit同步小助手 2024-07-27 00:03:48 0 收藏

Hive 函数

UDF（User-Defined-Function）普通函数，一进一出；例如：round 这样的函数；UDAF（User-Defined Aggregation Function）聚合函数，多进一出；例如：count、sum 这样的函数；UDTF（User-Defined Table-Genera

overfit同步小助手 2024-07-26 12:03:35 0 收藏

Hive自定义函数编写方法（含源代码解读，超详细，易理解）

Hive创建自定义函数的逻辑并不难，只需继承相关类，实现相关方法，打成jar包上传集群即可。但在代码编写阶段有一定难度，需要一定的java基础。t=N7T8。

overfit同步小助手 2024-07-26 05:03:46 0 收藏

hive之full outer join（全连接）使用

overfit同步小助手 2024-07-25 21:03:53 0 收藏

hive数据仓库项目练习

overfit同步小助手 2024-07-25 04:03:53 0 收藏

数仓工具—Hive语法之数组函数用法和示例

之后，您可以使用数组操作函数来操作数组类型。数组函数将自然语言文本的字符串分割成单词和句子，每个句子在适当的句子边界处断开，并作为单词数组返回。函数根据数组元素的自然排序对输入数组进行升序排序并返回。例如，考虑以下示例对数组字符串进行排序并返回排序后的数组。例如，以下示例仅从键值对 map 类型中返

overfit同步小助手 2024-07-25 00:03:50 0 收藏

Linux下安装Hive

安装hive前确保mysql已经安装安装需要的文件链接：https://pan.baidu.com/s/1AnZanBBwa_hYjfxfuGmYgQ?pwd=wf06提取码：wf06。

overfit同步小助手 2024-07-24 01:03:37 0 收藏

hive 数仓开发实战

对于一个公司或者组织来说，使用数据的用户可能成百上千，如何降低大家对于数据使用的沟通成本、如何通过规范大家的行为来降低使用数据的风险，这些问题是必须加以考虑的。作为新的大数据架构，数据湖采集和存储一切数据，既包含结构化的数据也包含非结构化（如语音、视频等）和半结构化的数据（如JSON 和XML 等）

overfit同步小助手 2024-07-23 11:03:57 0 收藏

【Pyspark-驯化】spark中高效保存数据到hive表中：stored as PARQUET

在PySpark中，数据可以以不同的文件格式存储，其中最常见的是TEXTFILE和PARQUET。这两种格式在存储效率、查询性能以及使用场景上有着显著的差异。STORED AS TEXTFILE：这是一种简单的存储方式，将数据以文本形式存储，通常用于非结构化数据。它不需要特定的序列化机制，易于阅读但

overfit同步小助手 2024-07-23 06:03:58 0 收藏

深入解析Apache Hive架构

Apache Hive是一种构建在Hadoop之上的数据仓库基础设施，主要用于大数据处理和查询。Hive提供了一种类SQL查询语言，称为HiveQL，使得用户能够以类似SQL的方式进行大规模数据分析。本文将详细解析Hive的架构，包括其核心组件、工作原理、使用场景及其优缺点。

overfit同步小助手 2024-07-21 08:03:54 0 收藏

Hive、SQL Server、MySQL 和 PostgreSQL 之间的对比区别

Hive是一个大数据处理工具，运行在 Hadoop 上，适合批量处理和分析海量数据。SQL Server是一个关系数据库系统，提供事务处理和实时数据访问，适合中到大规模的企业级数据管理和分析。MySQL是一个开源关系数据库系统，广泛用于中小型应用程序和网站，提供高并发的实时数据处理能力。Postgr

overfit同步小助手 2024-07-21 03:03:54 0 收藏

hive修改表字段数据类型

注：在执行操作时，你需要确保数据类型转换是安全的，即数据能够在新的数据类型下准确地表示。：在更改数据类型之前，请确保数据的值与新数据类型兼容。：如果你的应用程序依赖于这个Hive表，更改数据类型可能需要你更新应用程序的代码。：如果你正在修改一个分区表的列类型，并且希望这个更改应用到所有分区上，可以使

overfit同步小助手 2024-07-21 00:03:41 0 收藏

【大数据离线项目四：什么是海豚调度？怎么使用可以将海豚调度应用到我们的大数据项目开发中？】

Apache DolphinScheduler（海豚调度）是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统，致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系，并为应用程序提供

overfit同步小助手 2024-07-20 15:03:45 0 收藏

数仓工具—Hive语法之正则表达式函数

在我的其他文章中，我们已经看到了如何使用Hive正则表达式从字符串中提取日期值。正则表达式的另一个常见用途是提取数值，例如从字符串数据中提取区号或电话号码。当您处理不同的数据源时，可能需要从给定的字符串类型列中提取数字值，如电话号码或区号。例如，考虑下面的Hive示例，使用函数中的不同表达式从字符串

overfit同步小助手 2024-07-20 15:03:42 0 收藏

大数据hive表和iceberg表格式

iceberg表，是一种面向大型分析数据集的开放表格式，旨在提供可扩展、高效、安全的数据存储和查询解决方案。它支持多种存储后端上的数据操作，并提供 ACID 事务、多版本控制和模式演化等特性，使数据管理和查询更加灵活便捷。Iceberg 可以屏蔽底层数据存储格式上的差异，向上提供统一的操作 API，

overfit同步小助手 2024-07-20 00:03:48 0 收藏

Hive基础知识（六）：Hive 配置运行日志信息、打印当前库和表头、参数配置方式

另外，Hive 也会读入 Hadoop 的配置，因为。

overfit同步小助手 2024-07-19 23:03:54 0 收藏

【Spark On Hive】—— 基于电商数据分析的项目实战

overfit同步小助手 2024-07-19 22:03:30 0 收藏

hive线程数详解

hive.server2.async.exec.threads 默认100，设置计算线程的数量。hive.exec.input.listing.max.threads 默认值为15，Hive用来监听输入文件的最大线程数。hive.server2.async.exec.wait.queue.size

overfit同步小助手 2024-07-19 05:03:36 0 收藏

数仓工具—Hive语法之宏(Macro)

Hive中的宏是一组SQL语句，它们被存储并通过调用宏函数名称来执行。宏在当前会话期间存在。宏是临时的，如果你想拥有永久性的宏，最好创建用户定义的函数并在Hive中注册。在关系数据库管理系统（RDBMS）中，宏存储在数据字典中。Hive宏与关系型数据库中的宏略有不同。在我的其他文章中，我们讨论了如何

overfit同步小助手 2024-07-19 02:03:44 0 收藏