0


数据仓库可扩展性:实现高效的数据仓库可处理性和数据治理自动化流程

作者:禅与计算机程序设计艺术

数据仓库是一个集成的、面向主题的、中心化的、支持多种数据源(比如结构化、非结构化、半结构化、时间序列等)、易于查询的存储区域。作为一种大规模数据仓库,其管理和维护往往需要有针对性地设计数据建模方法、分层模型、ETL工具和规范,还需考虑可扩展性、数据质量保证、数据治理、监控等方面的问题。数据仓库的可扩展性可以说是关键,因为随着业务系统的不断发展和业务量的增长,数据仓库也会变得越来越庞大、越来越复杂,难以持续满足业务需求。而如何才能实现数据仓库的可扩展性,并且在数据治理上达到一定的自动化水平呢?本文将阐述数据仓库可扩展性在企业级应用中的具体实践经验,讨论数据仓库如何从单个数据仓库逐渐演进到多维数据仓库、OLAP Cube,提出数据架构的优化方案,并基于这些方案提供一个可扩展的方案框架和执行指南。

2.基本概念术语说明

数据仓库(Data Warehouse)

数据仓库,又称为星型模式或雪花模型,是企业信息的集中存放地点。它是集成的、面向主题的、中心化的、支持多种数据源的、易于查询的存储区域,具备高度的分析处理能力。数据仓库的目的就是要对业务数据进行整合、汇总、存储、报告、分析、决策支持。其包含了企业中最核心的、日常运行所必需的信息,包括业务活动记录、物料库存、订单交易等,通过对这些数据进行综合处理、汇总分析后,提供给各级领导和决策者做更加科学、全面、及时的数据分析支持。因此,数据仓库的主要作用是对数据的中心化和集成、数据质量的保证、数据分析结果的准确性。

可扩展性(Scalability)

可扩展性即随着工作量的增加


本文转载自: https://blog.csdn.net/universsky2015/article/details/131757540
版权归原作者 禅与计算机程序设计艺术 所有, 如有侵权,请联系我们删除。

“数据仓库可扩展性:实现高效的数据仓库可处理性和数据治理自动化流程”的评论:

还没有评论