Hudi - overfit.cn

Hudi最强指南 — Hudi的安装部署（Linux）

随着大数据技术的飞速发展，企业对于数据处理的效率和实时性的要求也越来越高。Hadoop作为大数据领域的领军技术，长久以来一直承载着海量数据的存储和处理任务。然而，传统的Hadoop数据模型在处理更新和删除操作时的局限性，使得它难以满足实时数据湖等复杂场景的需求。正是在这样的背景下，Hudi应运而生。

overfit同步小助手 2024-08-28 21:06:17 0 收藏

使用Flink SQL实时入湖Hudi/Hive

Hudi是一个流式数据湖平台，使用Hudi可以直接打通数据库与数据仓库，Hudi可以连通大数据平台，支持对数据的增删改查。Hudi支持同步数据入库，提供了事务保证、索引优化，是打造实时数仓、实时湖仓一体的新一代技术。下面以我实际工作中遇到的问题，聊下湖仓一体的好处，如有不对，敬请指正。

overfit同步小助手 2024-05-24 08:04:16 0 收藏

Hudi-简介和编译安装

Apache Hudi（Hadoop Upserts Delete and Incremental）是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发，同时保持数

overfit同步小助手 2023-12-22 13:03:46 0 收藏

Hudi系列13:Hudi集成Hive

Hudi集成hive

overfit同步小助手 2023-09-11 23:03:23 0 收藏

Hudi（16）：Hudi集成Flink之读取方式

如果将全量数据(百亿数量级) 和增量先同步到 kafka，再通过 flink 流式消费的方式将库表数据直接导成 hoodie 表，因为直接消费全量部分数据：量大（吞吐高）、乱序严重（写入的 partition 随机），会导致写入性能退化，出现吞吐毛刺，这时候可以开启限速参数，保证流量平稳写入。通过参

overfit同步小助手 2023-07-16 13:03:51 0 收藏

Flink Hudi DataStream API代码示例

总结Flink通过DataStream API读写Hudi Demo示例，主要是自己备忘用。最开始学习Flink时都是使用Flink SQL,所以对于Flink SQL读写Hudi比较熟悉。但是对于写代码实现并不熟悉，而有些需求是基于Flink代码实现的，所以需要学习总结一下。仅为了实现用代码读写H

overfit同步小助手 2023-07-11 10:04:26 0 收藏

数据湖——Hudi基本概念

hudi

overfit同步小助手 2023-06-24 23:04:24 0 收藏

Hudi（19）：Hudi集成Flink之索引和Catalog

通过 catalog 可以管理 flink 创建的表，避免重复建表操作，另外 hms 模式的 catalog 支持自动补全 hive 同步参数。WITH ('catalog.path' = '${catalog 的默认路径}',WITH ('catalog.path' = '${catalog 的默

overfit同步小助手 2023-06-03 23:03:50 0 收藏

Hudi（7）：Hudi集成Spark之spark-sql方式

默认情况下，如果提供了preCombineKey，则insert into的写操作类型为upsert，否则使用insert。hoodie.sql.bulk.insert.enable 和 hoodie.sql.insert.mode。不需要指定模式和非分区列（如果存在）之外的任何属性，Hudi可以自

overfit同步小助手 2023-04-30 01:03:36 0 收藏

Hudi（2）：Hudi的编译和安装

pom文件位置：vim /opt/software/hudi-0.12.0/packaging/hudi-spark-bundle/pom.xml （在382行的位置，修改如下红色部分）位置：vim /opt/software/hudi-0.12.0/packaging/hudi-utilities

overfit同步小助手 2023-04-08 17:03:48 0 收藏

Hudi 0.12.0 搭建——集成 Hive3.1 与 Spark3.2

Hudi 默认依赖的 Hadoop 为 Hadoop2.x，要兼容 Hadoop3.x，则需要修改 Hudi 源码。找到镜像依赖配置，添加新的下载依赖，我这里选用的阿里云依赖，必须放在第一个，否则不会起作用。找到镜像属性配置的那里，添加镜像，我这里选用的阿里云镜像。文件中的大约第 110 行中的参数

overfit同步小助手 2023-04-05 09:03:58 0 收藏

数据湖基本概念--什么是数据湖，数据湖又能干什么？为什么是Hudi

数据湖概念首次于2010年被James Dixon在其博客帖子（Pentaho, Hadoop, and Data Lakes | James Dixon's Blog）中提及：数据湖的权威定义（来自维基百科）：数据湖（Data Lake）是一个以原始格式存储数据的存储库或系统，它按原样存储数据，

overfit同步小助手 2023-04-02 11:04:12 0 收藏

基于Apache Hudi 和 Apache Spark Sql 的近实时数仓架构之宽表建设

无论是在lamda架构还是kappa架构中，实时计算通常是使用flink+mq来实现的，而在这些场景中涉及到多张表join时，一般我们的使用方法是多张流表join，或者流表维表的方式join。但无论是那种方式都会存在一些问题，比如窗口开的过小，数据晚到导致数据丢失。窗口开的过大，内存占用过高，成本高

overfit同步小助手 2023-03-30 17:04:46 0 收藏

Hudi源码|bootstrap源码分析总结（写Hudi）

利用Hudi Bootstrap转化现有Hive表的parquet/orc文件为Hudi表本文简单的对Hudi bootstrap的一些关键的源码逻辑进行了分析，希望能对大家有所帮助。限于精力及能力的原因，有些地方可能不够深入，或者不对的地方，还请大家多多指正，让我们共同进步。

overfit同步小助手 2023-02-10 04:04:08 0 收藏

Hudi源码 | Insert源码分析总结（二）(WorkloadProfile)

Hudi源码 | Insert源码分析总结（一）(整体流程)，继续进行Apache Hudi Insert源码分析总结，本文主要分析上文提到的关于的分析一共就这么多，主要是统计record中每个分区路径对应的insert/upsert数量以及upsert数据对应的fileId和,先持久化到.infl

overfit同步小助手 2023-02-10 02:03:50 0 收藏

Hudi源码|Insert源码分析总结（一）(整体流程)

Hudi Java Client总结|读取Hive写Hudi代码示例。以Java Client为例的原因：1、自己生产上用的Java Client，相比于Spark客户端更熟悉一点。2、Java Client和Spark、Flink客户端核心逻辑是一样的。不同的是比如Spark的入口是DF和SQL，

overfit同步小助手 2023-02-10 00:04:19 0 收藏

Hudi Java Client总结|读取Hive写Hudi代码示例

Hudi除了支持Spark、Fink写Hudi外，还支持Java客户端。本文总结Hudi Java Client如何使用，主要为代码示例，可以实现读取Hive表写Hudi表。当然也支持读取其他数据源，比如mysql，实现读取mysql的历史数据和增量数据写Hudi。

overfit同步小助手 2023-01-29 18:04:12 0 收藏

Flink SQL通过Hudi HMS Catalog读写Hudi并同步Hive表（强烈推荐这种方式）

上篇文章Flink SQL操作Hudi并同步Hive使用总结总结了如何使用Flink SQL读写Hudi并同步Hive，介绍了创建表的各种方式，但是每一种方式都不太完美。本文介绍一种比较完美的方式，通过Hudi HMS Catalog读写Hudi并同步Hive表，这里的Hudi HMS Catalo

overfit同步小助手 2023-01-24 12:04:57 0 收藏

Hudi Spark SQL Call Procedures学习总结（一）（查询统计表文件信息）

学习总结Hudi Spark SQL Call Procedures，Call Procedures在官网被称作存储过程（Stored Procedures），它是在Hudi 0.11.0版本由腾讯的ForwardXu大佬贡献的，它除了官网提到的几个Procedures外，还支持其他许多Proced

overfit同步小助手 2022-11-28 11:30:15 0 收藏

Hudi源码|Insert源码分析总结（一）(整体流程)

Hudi Java Client总结|读取Hive写Hudi代码示例。以Java Client为例的原因：1、自己生产上用的Java Client，相比于Spark客户端更熟悉一点。2、Java Client和Spark、Flink客户端核心逻辑是一样的。不同的是比如Spark的入口是DF和SQL，

overfit同步小助手 2022-11-14 06:06:07 0 收藏

Hudi最强指南 — Hudi的安装部署（Linux）

使用Flink SQL实时入湖Hudi/Hive

Hudi-简介和编译安装

Hudi系列13:Hudi集成Hive

Hudi（16）：Hudi集成Flink之读取方式

Flink Hudi DataStream API代码示例

数据湖——Hudi基本概念

Hudi（19）：Hudi集成Flink之索引和Catalog

Hudi（7）：Hudi集成Spark之spark-sql方式

Hudi（2）：Hudi的编译和安装

Hudi 0.12.0 搭建——集成 Hive3.1 与 Spark3.2

数据湖基本概念--什么是数据湖，数据湖又能干什么？为什么是Hudi

基于Apache Hudi 和 Apache Spark Sql 的近实时数仓架构之宽表建设

Hudi源码|bootstrap源码分析总结（写Hudi）

Hudi源码 | Insert源码分析总结（二）(WorkloadProfile)

Hudi源码|Insert源码分析总结（一）(整体流程)

Hudi Java Client总结|读取Hive写Hudi代码示例

Flink SQL通过Hudi HMS Catalog读写Hudi并同步Hive表（强烈推荐这种方式）

Hudi Spark SQL Call Procedures学习总结（一）（查询统计表文件信息）

Hudi源码|Insert源码分析总结（一）(整体流程)

作者榜

资讯小助手

内容小助手

Deephub

奕凯