0


Flink与GoogleCloudBigtable:将数据存储在分布式列存储中

作者:禅与计算机程序设计艺术

随着互联网和移动互联网的普及,海量的数据需要实时地被处理分析,而传统的关系型数据库已经无法满足需求。为了能够快速高效地对海量数据进行查询分析、数据采集、数据预处理等操作,分布式数据库应运而生。其中一种分布式数据库Google BigTable就是目前流行的一种分布式列存储数据库。BigTable是一个高性能、可扩展的持久性存储系统,它将数据按照行键值分成不同的表格(ColumnFamily),并通过硬盘上的多个文件存储在不同服务器上。另外,BigTable中的每一个单元格可以存放多版本的数据,也就是说,同一个单元格可以保存多个历史版本的数据。相比于传统的关系型数据库,BigTable具有更高的读写性能、更好的分布式扩展能力和容错性。但同时,也存在一些短板,例如它的存储结构限制了数据类型和索引功能不足等缺点。因此,基于BigTable构建的分布式列存储系统Flink作为新一代分布式流计算框架,利用其强大的灵活的数据处理能力,已经开始受到越来越多人的关注。本文将结合实际案例,从两个方面介绍Flink与Bigtable之间的一些相关技术特性,并提供相应的实践经验。

2.基本概念术语说明

Flink

Apache Flink 是一款开源的分布式流处理框架,它能够运行在内存中以提升性能,也可以部署在集群上以充分利用资源。它支持许多种编程语言,包括 Java、Scala、Python 和 SQL。

Flink编程模型

Flink 的编程模型主要分为三个层级,从低到高分别是:

  1. DataStream API: 最低级别的 API,提供以数据流的方式进行处理数据的能力,能够对数

本文转载自: https://blog.csdn.net/universsky2015/article/details/131820989
版权归原作者 禅与计算机程序设计艺术 所有, 如有侵权,请联系我们删除。

“Flink与GoogleCloudBigtable:将数据存储在分布式列存储中”的评论:

还没有评论