一、什么是Apache Paimon?
Apache Paimon是一种湖格式,可以通过Flink和Spark构建实时Lakehouse架构,用于流式和批处理操作。Paimon创新地结合了湖格式和LSM(日志结构合并树)结构,将实时流式更新引入湖架构。
Paimon主要包含下面这些核心特点:
1. 统一的批处理和流处理
Paimon支持批量写入、批量读取,流式写入、流式更新,以及流式读取。
2. 数据湖功能
作为数据湖存储系统,Paimon具有低成本、高可靠性、可扩展的元数据等特性。
3. 丰富的合并引擎
Paimon支持丰富的合并引擎,针对多条相同主键的数据,可以选择保留最后一条新数据、或者进行局部更新,或者进行聚合,都是可以支持的。
4. 自动生成变更日志
Paimon支持丰富的Changelog 生产者,可以自动从任何数据源生成正确完整的变更日志,简化流式任务的分析。
5. 丰富的表类型
Paimon可以支持主键表和仅追加表,主键表可以支持新增、更新和删除表中的数据。
仅追加表只能支持新增数据,但是可以提供有序的流式数据读取,进而可以替换消息队列。
同时Paimon中也支持内部表、外部表、分区表和临时表这些表类型。
类别
详情
支持类型
源表、维表和结果表
运行模式
流模式和批模式
数据格式
暂不支持
特有监控指标
暂无
API种类
SQL
是否支持更新或删除结果表数据
是
6. 支持表结构变更同步(也可以称为Schema模式演变)
在向Paimon中同步数据时,当数据源表的表结构发生了变化的时候,Paimon可以自动识别并同步到这些变化。
7.Paimon的生态支持
版权归原作者 拾八闲客 所有, 如有侵权,请联系我们删除。