数据仓库的定义
数据仓库是一种面向商务智能 (BI) 活动(尤其是分析)的数据管理系统,它仅适用于查询和分析,通常涉及大量的历史数据。在实际应用中,数据仓库中的数据一般来自应用日志文件和事务应用等广泛来源。
数据仓库能够集中、整合多个来源的大量数据,借助数据仓库的分析功能,企业可从数据中获得宝贵的业务洞察,改善决策。同时,随着时间推移,它还会建立一个对于数据科学家和业务分析人员极具价值的历史记录。得益于这些强大的功能,数据仓库可为企业提供一个“单一信息源”。
一个数据仓库通常包含以下要素
- 一个用于存储和管理数据的关系数据库
- 一个用于分析前数据准备的提取、加载和转换 (ELT) 解决方案
- 统计分析、报告和数据挖掘功能
- 用于数据可视化和展现的客户端分析工具
- 其他更复杂的分析应用通过应用数据科学和人工智能 (AI) 算法或图形和空间功能来生成切实可行的信息,从而支持对数据进行更多类型的大规模分析
企业还可以在一个 MySQL Database 服务中集成集事务处理、实时分析(数据仓库和数据湖)和机器学习功能,消除 ETL(提取、转换、加载)复制的复杂性、延迟、成本和风险。
数据仓库的优势
数据仓库在高效分析大量不同的数据,提取数据价值并保留历史记录方面拥有独一无二的强大优势。
数据仓库之父兼计算机科学家 William Inmon 定义了数据仓库的 4 大特征,这 4 大特征为数据仓库的强大优势奠定了坚实基础。根据定义,数据仓库具有以下特点:
- 面向主题:数据仓库可以高效分析关于特定主题或职能领域(例如销售)的数据。
- 集成:数据仓库可在不同来源的不同数据类型之间建立一致性。
- 相对稳定:进入数据仓库后,数据将保持稳定,不会发生改变。
- 反映历史变化:数据仓库分析着眼于反映历史变化。
一个精心设计的数据仓库支持高速查询、高数据吞吐量,能够凭借出色的灵活性帮助用户细分数据或降低数据量,进而执行更加细致的数据检查,满足高层级和精细化数据管理等各种需求。同时,它还能为中间件 BI 环境(为最终用户提供报告、仪表盘和更多其他界面)提供一个坚实的功能性基础。
数据仓库的架构
数据仓库的架构取决于企业的需求。通用数据仓库架构具有以下特点:
- 简单:所有数据仓库都采用同一基本设计,将元数据、概要数据和原始数据全部存储在中央信息库中。信息库一端由数据源馈送信息,另一端则供最终用户访问,以便进行分析、报告和数据挖掘。
- 通过暂存区简化数据准备:将操作型数据置入数据仓库之前,必须首先进行清理和处理。这一步骤可通过编程方式完成,但很多数据仓库会创建一个暂存区来简化数据准备工作。
- 星型结构:通过在中央信息库和最终用户之间创建数据集市,企业可以对数据仓库进行自定义,灵活满足各种业务线的需求。换言之,准备就绪后,数据不会立即进入数据仓库,而是会被移至适当的数据集市。
- 沙盒:沙盒可提供一个专有的安全区域,帮助企业快速、非正式地探索新的数据集或新的数据分析方式,而无需遵守或遵循数据仓库的正式规则和协议。
数据仓库的进化:从数据分析到 AI 和机器学习
数据仓库首次出现于 20 世纪 80 年代末,其最初目的是帮助数据从操作系统“流入”决策支持系统 (DSS)。早期的数据仓库需要大量冗余:大多数企业为了满足各种用户的需求而采用多个 DSS 环境,虽然各个 DSS 环境使用的数据大部分相同,但通常还是要分别执行数据收集、清理和集成。
而后,随着效率不断提升,数据仓库也从服务传统 BI 平台的信息存储库变成了服务一系列广泛应用(例如运营分析和绩效管理)的分析基础设施。
如今,经过长期迭代,数据仓库取得了长足的发展,企业级数据仓库 (EDW) 能够为企业创造越来越多的价值。
数据仓库、数据集市和操作型数据存储
尽管用途相似,但数据仓库与数据集市、操作型数据存储 (ODS) 并不相同。数据集市功能与数据仓库相同,但应用范围非常有限,通常仅限于单个部门或业务线。因此,其创建比数据仓库更简单。然而,如果用户难以统一管理和控制多个数据集市中的数据。则非常容易出现数据不一致的问题。
ODS 则仅支持日常操作,只能提供非常有限的历史数据视图。它们非常适合作为当前数据源,也常常被数据仓库使用,但不支持具有丰富历史的数据的查询。
版权归原作者 weixin_73117535 所有, 如有侵权,请联系我们删除。