0


大数据-220 离线数仓 - 数仓基本概念 数仓特征 与数据库进行对比

点一下关注吧!!!非常感谢!!持续更新!!!

目前已经更新到了:

  • Hadoop(已更完)
  • HDFS(已更完)
  • MapReduce(已更完)
  • Hive(已更完)
  • Flume(已更完)
  • Sqoop(已更完)
  • Zookeeper(已更完)
  • HBase(已更完)
  • Redis (已更完)
  • Kafka(已更完)
  • Spark(已更完)
  • Flink(已更完)
  • ClickHouse(已更完)
  • Kudu(已更完)
  • Druid(已更完)
  • Kylin(已更完)
  • Elasticsearch(已更完)
  • DataX(已更完)
  • Tez(已更完)
  • 数据挖掘(已更完)
  • Prometheus(已更完)
  • Grafana(已更完)
  • 离线数仓(正在更新…)

章节内容

上节我们完成了如下的内容:

  • Grafana 简单上手
  • 安装配置 基本介绍

在这里插入图片描述

数据仓库

数仓概念

1988年,为解决全企业集成问题,IBM公司第一次提出了信息仓库(Information Warehouse)概念。数据仓库的基本原理、技术架构以及分析系统的主要原因都已确定,数据仓库初具雏形。
1991年Bill Inmon(比尔 恩门)出版了他的第一本关于数据仓库的书《Building the Data Warehouse》,标志着数据仓库概念的确立。书中指出,数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策(Decision-Making Support)。该书还提供了建立数据仓库的指导意见和基本原则。凭借这本书,Bill Inmon被称为数据仓库之父。

数仓特征

  • 面向主题的
  • 集成的
  • 稳定的
  • 反映历史变化

面向主题

与传统数据库面向应用进行数据组织的特点相应,数据仓库中的数据是面向主题进行组织的。

什么是主题?

  • 主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象
  • 在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象

面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。所谓较高层次是相对面向应用的数据组织方式而言的,是指按照主题进行数据组织的方式具有更高的数据抽象级别。
例如销售分析就是一个分析领域,那么数据仓库的分析主题可以是销售分析。

集成的

数据仓库的数据是从原有的分散的多个数据库、数据文件、用户日志中抽取来的,数据来源可能既有内部又有外部数据。操作型数据与分析性数据之间的差别很大:

  • 数据仓库的每一个主题所对应的源数据,在原有的各分散数据库中有重复和不一致的地方,且来源不同的联机系统的数据与不同的应用逻辑捆绑在于一起
  • 数据仓库中的数据很难从原有数据库系统直接得到,数据在进入数据仓库之前,需要经过统一与综合

数据仓库中的数据是分析服务的,而分析需要多种广泛的不同数据源以便进行比较、鉴别,数据仓库中的数据会从多个数据源中获取,这些数据源包括多种类型数据库、文件系统以及Internet网上数据,它们通过数据集成而形成数据仓库中的数据。

在这里插入图片描述

稳定的

数据仓库数据反映的是一段相当长的时间历史数据的内容,是不同时点的数据库快照的集合,以及基于这些快照进行统计、综合和重组的导出数据。
数据稳定主要是针对应用而言,数据仓库的用户对数据的操作大多是数据查询或比较复杂的挖掘,一旦数据进行数据仓库后,一般情况下被较长时间保留。数据经过加工和集成进入数据仓库后极少更新的,通常只需要定期的加载和更新。

反映历史变化

数据仓库包含各种粒度的历史数据,数据仓库中的数据可能与某个特定日期、星期、月份、季度或者年份有关。虽然数据仓库不会修改数据,但并不是说数据仓库的数据是永远不变的。数据仓库的数据也需要更新,以适应决策的需要。数据仓库的数据随时间变化表现在以下的几个方面:

  • 数据仓库的数据时限一般要远远长于操作型数据的时限
  • 业务系统存储的是当前数据,而数据仓库中的数据是历史数据
  • 数据仓库中的数据是按照时间的顺序追加的,都带有时间属性

数仓作用

  • 整合企业业务数据,建立统一的数据中心
  • 产生业务报表,了解企业的经营情况
  • 为企业运营、决策提供数据支持
  • 可以作为各个业务的数据源,形成业务数据互相反馈的良性循环
  • 分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果
  • 开发数据产品,直接或间接的为企业盈利

对比数据库

数据库与数据仓库的区别,实际上比的是:OLTP与OLAP的区别。
OLTP(On-Line Transaction Processing 联机事务处理),也成为面向交易的处理系统。主要针对具体业务在数据库系统的日常操作,通常对少数记录进行查询、修改。用户较为关心操作的响应时间、数据的安全性、完整性和并发支持的用户数等问题。传统的数据库系统作为数据管理的主要手段,主要用于操作型处理。

OLAP(On-Line Analytical Processing 联机分析处理),一般针对某些主题的历史数据进行分析,支持管理决策。

数据仓库的出现,并不是要取代数据库:

  • 数据仓库主要用于解决企业级的数据分析问题或者管理和决策
  • 数据仓库为分析数据而设计,数据库是为了捕获和存储数据而设计
  • 数据仓库是面向分析,面向主题设计的,即信息是按主题进行组织的,属于分析型。数据库是面向事务设计的,属于操作型。
  • 数据仓库在设计上有意的数据冗余,提高查询的效率,采用反范式来进行设计,而数据库是尽量避免冗余,一般采用符合范式的方式来设计。
  • 数据仓库较大,数据仓库中的数据来源于多个异构的数据源,而且保留了企业的历史数据,数据存储有期限、单一领域的业务数据
  • 数据库是面向事务的设计,数据仓库是面向主题设计的
  • 数据库存储有期限的业务数据,数据仓库是存储企业的历史数据
  • 数据库设计尽量避免冗余,数据仓库为了速度需要冗余
  • 数据库是为了捕获数据而设计,数据仓库是为了分析数据而设计

以银行的业务为例,数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来。这里,可以简单的理解为用数据库记账。
数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。
比如某银行分行一个月发生了多少次交易,该分行当前存款余额是多少,如果存取款多,消费交易多,那么该地区就有必要设立ATM了。
银行的交易量是巨大的,通常以百万甚至千万次来计算。事务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。而分析是事后的,它要提供关注时间段内所有的有效数据。这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据就达到目的了。
数据仓库是数据库已经存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它绝对不是所谓的大型的数据库。

在这里插入图片描述


本文转载自: https://blog.csdn.net/w776341482/article/details/143701019
版权归原作者 武子康 所有, 如有侵权,请联系我们删除。

“大数据-220 离线数仓 - 数仓基本概念 数仓特征 与数据库进行对比”的评论:

还没有评论