基于Apache Hudi 和 Apache Spark Sql 的近实时数仓架构之宽表建设

无论是在lamda架构还是kappa架构中,实时计算通常是使用flink+mq来实现的,而在这些场景中涉及到多张表join时,一般我们的使用方法是多张流表join,或者流表维表的方式join。但无论是那种方式都会存在一些问题,比如窗口开的过小,数据晚到导致数据丢失。窗口开的过大,内存占用过高,成本高

数据湖系列文章

数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。数据湖的主要思想是对企业中的所有数据进行统一存储,从原始数据(源系统数据的精确副本)转换为用于报告、可视化、分析和机器学习等各种任务的目标数据。数据湖中的数据包括结构化数据(关系数据库数据

数据湖(十二):Spark3.1.2与Iceberg0.12.1整合

文章目录Spark3.1.2与Iceberg0.12.1整合一、​​​​​​​向pom文件导入依赖二、SparkSQL设置catalog配置三、使用Hive Catalog管理Iceberg表1、创建表2、插入数据3、查询数据4、删除表四、用Hadoop Catalog管理Iceberg表1、创建表

湖仓一体电商项目(一):项目背景和架构介绍

湖仓一体实时电商项目是基于某宝商城电商项目的电商数据分析平台,本项目在技术方面涉及大数据技术组件搭建,湖仓一体分层数仓设计、实时到离线数据指标分析及数据大屏可视化,项目所用到的技术组件都从基础搭建开始,目的在于湖仓一体架构中数据仓库与数据湖融合打通,实现企业级项目离线与实时数据指标分析。在业务方面目

Hudi源码 | Insert源码分析总结(二)(WorkloadProfile)

Hudi源码 | Insert源码分析总结(一)(整体流程),继续进行Apache Hudi Insert源码分析总结,本文主要分析上文提到的关于的分析一共就这么多,主要是统计record中每个分区路径对应的insert/upsert数量以及upsert数据对应的fileId和,先持久化到.infl

数据湖及湖仓一体化项目学习框架

利用框架的力量,看懂游戏规则,才是入行的前提大多数人不懂,不会,不做,才是你的机会,你得行动,不能畏首畏尾选择才是拉差距关键,风向,比你流的汗水重要一万倍,逆风划船要累死人的上面这些看似没用,但又很重要,这里我就不在详述作用,有兴趣的同学可以看看我的学习框架的重要性我是怎么坚持学习的怎么确定学习目标

Hudi源码|Insert源码分析总结(一)(整体流程)

Hudi Java Client总结|读取Hive写Hudi代码示例。以Java Client为例的原因:1、自己生产上用的Java Client,相比于Spark客户端更熟悉一点。2、Java Client和Spark、Flink客户端核心逻辑是一样的。不同的是比如Spark的入口是DF和SQL,

Hudi Java Client总结|读取Hive写Hudi代码示例

Hudi除了支持Spark、Fink写Hudi外,还支持Java客户端。本文总结Hudi Java Client如何使用,主要为代码示例,可以实现读取Hive表写Hudi表。当然也支持读取其他数据源,比如mysql,实现读取mysql的历史数据和增量数据写Hudi。

Flink SQL通过Hudi HMS Catalog读写Hudi并同步Hive表(强烈推荐这种方式)

上篇文章Flink SQL操作Hudi并同步Hive使用总结总结了如何使用Flink SQL读写Hudi并同步Hive,介绍了创建表的各种方式,但是每一种方式都不太完美。本文介绍一种比较完美的方式,通过Hudi HMS Catalog读写Hudi并同步Hive表,这里的Hudi HMS Catalo

Flink SQL增量查询Hudi表

前面总结了Spark SQL增量查询Hudi表和Hive增量查询Hudi表。最近项目上也有Flink SQL增量查询Hudi表的需求,正好学习总结一下。地址:https://hudi.apache.org/cn/docs/querying_data#incremental-query用show_co

Hudi Spark SQL Call Procedures学习总结(一)(查询统计表文件信息)

学习总结Hudi Spark SQL Call Procedures,Call Procedures在官网被称作存储过程(Stored Procedures),它是在Hudi 0.11.0版本由腾讯的ForwardXu大佬贡献的,它除了官网提到的几个Procedures外,还支持其他许多Proced

Hudi源码|Insert源码分析总结(一)(整体流程)

Hudi Java Client总结|读取Hive写Hudi代码示例。以Java Client为例的原因:1、自己生产上用的Java Client,相比于Spark客户端更熟悉一点。2、Java Client和Spark、Flink客户端核心逻辑是一样的。不同的是比如Spark的入口是DF和SQL,

Flink SQL通过Hudi HMS Catalog读写Hudi并同步Hive表(强烈推荐这种方式)

上篇文章Flink SQL操作Hudi并同步Hive使用总结总结了如何使用Flink SQL读写Hudi并同步Hive,介绍了创建表的各种方式,但是每一种方式都不太完美。本文介绍一种比较完美的方式,通过Hudi HMS Catalog读写Hudi并同步Hive表,这里的Hudi HMS Catalo

Hudi Java Client总结|读取Hive写Hudi代码示例

Hudi除了支持Spark、Fink写Hudi外,还支持Java客户端。本文总结Hudi Java Client如何使用,主要为代码示例,可以实现读取Hive表写Hudi表。当然也支持读取其他数据源,比如mysql,实现读取mysql的历史数据和增量数据写Hudi。

数据湖及湖仓一体化项目学习框架

利用框架的力量,看懂游戏规则,才是入行的前提大多数人不懂,不会,不做,才是你的机会,你得行动,不能畏首畏尾选择才是拉差距关键,风向,比你流的汗水重要一万倍,逆风划船要累死人的上面这些看似没用,但又很重要,这里我就不在详述作用,有兴趣的同学可以看看我的学习框架的重要性我是怎么坚持学习的怎么确定学习目标

Delta Lake 是什么?

Delta Lake 是一个开源项目,它可以运行在你现有的数据湖之上,可以在数据湖上构建湖仓一体架构,并且与 Apache Spark API 完全兼容。

大数据_湖仓一体:下一代存储解决方案

湖仓一体可以存储、优化、分析和访问所有类型的数据,无论数据是结构化的、半结构化的,还是非结构化的,这一点和数据库不同,但和数据湖差不多。湖仓一体可以存储、优化、分析和访问所有类型的数据,无论数据是结构化的、半结构化的,还是非结构化的,这一点和数据库不同,但和数据湖差不多。新的系统设计让湖仓一体成为可

数据湖(十七):Flink与Iceberg整合DataStream API操作

文章目录Flink与Iceberg整合DataStream API操作一、DataStream API 实时写入Iceberg表1、首先在Maven中导入以下依赖2、编写代码使用DataStream API将Kafka数据写入到Iceberg表3、在Kafka 中创建代码中指定的“flink-ice

数据湖(十六):Structured Streaming实时写入Iceberg

文章目录Structured Streaming实时写入Iceberg一、创建Kafka topic二、编写向Kafka生产数据代码三、编写Structured Streaming读取Kafka数据实时写入Iceberg四、查看Iceberg中数据结果目前Spark中Structured Strea

数据湖(十五):Spark与Iceberg整合写操作

文章目录Spark与Iceberg整合写操作一、​​​​​​​INSERT INTO二、MERGE INTO1、首先创建a表和b表,并插入数据2、使用MERGE INTO 语法向目标表更新、删除、新增数据3、​​​​​​​​​​​​​​INSERT OVERWRITE四、DELETE FROM五、​

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈