CDH集成Paimon+flink+hive的测试联调

Apache Paimon是一种湖格式，可以通过Flink和Spark构建实时Lakehouse架构，用于流式和批处理操作。Paimon创新地结合了湖格式和LSM（日志结构合并树）结构，将实时流式更新引入湖架构。

Paimon支持批量写入、批量读取，流式写入、流式更新，以及流式读取。

作为数据湖存储系统，Paimon具有低成本、高可靠性、可扩展的元数据等特性。

Paimon支持丰富的合并引擎，针对多条相同主键的数据，可以选择保留最后一条新数据、或者进行局部更新，或者进行聚合，都是可以支持的。

Paimon支持丰富的Changelog 生产者，可以自动从任何数据源生成正确完整的变更日志，简化流式任务的分析。

Paimon可以支持主键表和仅追加表，主键表可以支持新增、更新和删除表中的数据。
仅追加表只能支持新增数据，但是可以提供有序的流式数据读取，进而可以替换消息队列。
同时Paimon中也支持内部表、外部表、分区表和临时表这些表类型。

类别

详情

支持类型

源表、维表和结果表

运行模式

流模式和批模式

数据格式

暂不支持

特有监控指标

暂无

API种类

SQL

是否支持更新或删除结果表数据

是

在向Paimon中同步数据时，当数据源表的表结构发生了变化的时候，Paimon可以自动识别并同步到这些变化。

标签： hadoop hive 大数据

本文转载自: https://blog.csdn.net/weixin_43566162/article/details/141035159
版权归原作者 拾八闲客 所有，如有侵权，请联系我们删除。