- 什么是MPP架构? MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果。
任务并行执行;
数据分布式存储(本地化);
分布式计算;
私有资源;
横向扩展;
Shared Nothing架构。
- 属于MPP架构的数据库
- Druid
- Doris
- ClickHouse
- Greenplum 主要进行OLAP多维分析
- Kudu和Hbase 都属于列式存储的数据库,架构上,Hbase使用HDFS存储,Kudu使用自己的方式进行存储,性能更好。 Kudu和Hbase区别
- ClickHose clickHouse介绍
- Kudu和Hbase和ClickHouse区别 三者区别
- Doris Doris介绍
实时数仓:
1.数据存储:
数据存储采用什么存储介质,主要取决于数据在哪些应用场景,主要方案有:
Kafka、HDFS、Kudu、 Clickhouse、Hbase
2. 数据计算
计算层主要使用 Flink、Spark、Presto 以及 ClickHouse 自带的计算能力等四种计算引擎,Flink 计算引擎主要用于实时数据同步、 流式 ETL、关键系统秒级实时指标计算场景,Spark SQL 主要用于复杂多维分析的准实时指标计算需求场景,Presto 和 ClickHouse 主要满足多维自助分析、对查询响应时间要求不太高的场景。
3.app层
面向实时数据场景需求构建的高度汇总层,可以根据不同的数据应用场景决定使用存储介质或者引擎;例如面向业务历史明细、BI 支持等 Olap 分析场景,可以使用 Druid、Greenplum,面向实时监控大屏、高并发汇总指标等需求,可以使用 KV 模式的 HBase;数据量较小的时候, 也可以使用 Mysql 来进行存储。
版权归原作者 侯侯侯先生 所有, 如有侵权,请联系我们删除。