0


CDH集成Paimon+flink+hive的测试联调

一、什么是Apache Paimon?

Apache Paimon是一种湖格式,可以通过Flink和Spark构建实时Lakehouse架构,用于流式和批处理操作。Paimon创新地结合了湖格式和LSM(日志结构合并树)结构,将实时流式更新引入湖架构。

Paimon主要包含下面这些核心特点:

1. 统一的批处理和流处理

Paimon支持批量写入、批量读取,流式写入、流式更新,以及流式读取。

2. 数据湖功能

作为数据湖存储系统,Paimon具有低成本、高可靠性、可扩展的元数据等特性。

3. 丰富的合并引擎

Paimon支持丰富的合并引擎,针对多条相同主键的数据,可以选择保留最后一条新数据、或者进行局部更新,或者进行聚合,都是可以支持的。

4. 自动生成变更日志

Paimon支持丰富的Changelog 生产者,可以自动从任何数据源生成正确完整的变更日志,简化流式任务的分析。

5. 丰富的表类型

Paimon可以支持主键表和仅追加表,主键表可以支持新增、更新和删除表中的数据。
仅追加表只能支持新增数据,但是可以提供有序的流式数据读取,进而可以替换消息队列。
同时Paimon中也支持内部表、外部表、分区表和临时表这些表类型。

类别

详情

支持类型

源表、维表和结果表

运行模式

流模式和批模式

数据格式

暂不支持

特有监控指标

暂无

API种类

SQL

是否支持更新或删除结果表数据

6. 支持表结构变更同步(也可以称为Schema模式演变)

在向Paimon中同步数据时,当数据源表的表结构发生了变化的时候,Paimon可以自动识别并同步到这些变化。

7.Paimon的生态支持
标签: hadoop hive 大数据

本文转载自: https://blog.csdn.net/weixin_43566162/article/details/141035159
版权归原作者 拾八闲客 所有, 如有侵权,请联系我们删除。

“CDH集成Paimon+flink+hive的测试联调”的评论:

还没有评论