离线和实时数仓技术架构梳理

1.离线数仓

离线数仓架构基本都是基于 Hive进行构建，数据分层方式如下：

ODS Operational Data store，贴源层（原始数据层）从各个业务系统、数据库或消息队列采集的原始数据，只做简单处理，尽可能维持数据原貌
DWDData Warehouse Detail，数据明细层将贴源层的原始数据进行清洗补全后存入该层，数据粒度保持不变
DIM Dimension，维度层根据数据的实际情况抽取不同的维度数据，比如人员维度、产品维度
DWSData Warehouse Detail，数据服务层基于明细层和维度层的数据，按业务需要汇总成一个个的主题数据，供数据分析使用
ADSApplication Data Service，应用数据层根据业务需求形成了可供直接查询和使用的数据，可以存放在ES、HBase、Redis和MySQL等中

一个较为通用的离线数仓架构如下：

在这里插入图片描述

2.实时数仓

通过阅读多家业内头部公司的实时数仓建设方案，总结下来其核心都是 flink+kafka，对比离线数仓，其分层方式要简单一些。

这里也总结几个经典的技术选型案例：

Flink+Kafka+ClickHouse

在这里插入图片描述

这种架构方案其实是将数据源作为 ods层了，可以看作其实没有存真正完全未处理过的原始数据，对比离线数仓分层，也就少了一层。在 kafka中放 dwd和 dws的数据，使用 redis存放维度数据，再借助 flink实现不同层之间数据的抽取转换。另外，ads层用的 ClickHouse，也可以换成别的支持实时查询的存储，比如 Elasticsearch、Doris、StarRocks。

Flink+Kafka+HBase这种架构方式把 dws层给简化了，目的是缩短数据链条，增强分析结果的实时性。由于 kafka中存储了 ods的数据，对 kafka来说压力就比较大了，需要多注意 kafka集群的设计与后期维护了。另外，这里维度数据存放在 hbase中，适合维度数据较多的业务场景。
Flink+Kafka+Iceberg+Presto

在这里插入图片描述

这种架构方式对比前两种，变化就比较大了。首先，引入了数据湖的理念和技术。其次，弱化了 kafka的地位，ods、dwd、dws三层的数据全部存在 Iceberg中，由 flink来完成不同层数据之间的流动。最后，由 Presto使用 sql直接查询 Iceberg中的数据，数据链条被进一步缩短了，当然实时性更强了。

标签：架构大数据数据仓库

本文转载自: https://blog.csdn.net/Daphnisz/article/details/129301517
版权归原作者 Daphnis_z 所有，如有侵权，请联系我们删除。

离线和实时数仓技术架构梳理

1.离线数仓

2.实时数仓

发表评论

“离线和实时数仓技术架构梳理”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航