11.1.0语境关系图
11.1 Q 建立数据仓库,有哪些步骤?如何建设?【6 个步骤非常重要!必须知道】
1. 理解需求(P)(目的明确,ETL)
(1) 考虑业务目标和业务战略。
(2) 确定业务领域并框定范围。
(3) 访谈,了解业务人员需求,问题及访问的数据。
(4) 掌握关键指标和计算口径。
2. 定义和维护 DW 和 BI 架构(P)
(1) 确定数据仓库/商务智能技术架构。
(2) 确定数据仓库/商务智能管理流程。
3. 开发数据仓库和数据集市(D)【建立表】
(1) 建立源到目标的映射关系。
(2) 修正和转换数据。
4. 加载数据仓库(D)
== (1) 工作量最大的部分。
(2) 延迟要求【时延决定了数据加载方法,实时加载/CDC/流数据加载】、源可用性、批处理时间窗口。
(3) 数据质量问题。==
5. 实施 BI 产品组合(D)【多给几个产品,自己编程、PowerBI、Rapidminer等】
== (1) 根据需要对用户进行分组。
(2) 将工具与用户要求匹配。==
6. 维护数据产品(O)
(1) 发布管理。
(2) 管理数据产品开发生命周期。
(3) 监控和调优加载过程。
(4) 监控和调优商务智能活动和性能。
11.2 OLAP&OLTP 差别【可能会考】
Q1:OLAP 和 OLTP 差别有哪些?【多选题】
A1:OLTP 用于日常交易处理,OLAP 用于查询、分析、决策;
OLTP 用于简单小事务,操作少量数据,OLAP 用于复杂查询、大量数据;
OLTP 数据一般为当前最新数据(实时),数据规模 GB,OLAP 一般为历史数据(批量),数据规模 TB-PB;
OLTP 一般满足三范式,OLAP 一般逆规范化,反范式,星型模型;
OLTP 用户一般为操作人员、低层管理人员,OLAP 一般为决策人员,高级管理人员;
OLTP 的 DB 设计为面向应用,OLAP 设计为面向主题;OLTP 软件技术为数据库,OLAP 软件技术为数据仓库。
Q2:index 索引(快速搜索)用在 OLAP 还是 OLTP?
A2:OLAP。
Q3:逆规范化,用在 OLAP 还是 OLTP?
A3:OLAP,OLTP 应满足 3NF。
用作 OLAP 的软件:Netezza,Hadoop,Hiva(开源,不建议用,性能很慢)。
三种经典的 OLAP 实现方法
1)关系型联机分析处理(ROLAP)。
ROLAP 通过在在关系数据库(RDBMS)的二维表中使用多维技术来支持 OLAP。星型架构是 ROLAP 环境中常用的数据库设计技术。
2)多维矩阵型联机分析处理(MOLAP)。
MOLAP 通过使用专门的多维数据库技术支持 OLAP。【数据量有限制,现在用的不多】。
3)混合型联机分析处理(HOLAP)。
ROLAP 和 MOLAP 的结合。HOLAP实现允许部分数据以 MOLAP 形式存储,而另一部分数据存储在ROLAP中。控件的实现方式各不相同,设计师对分区的组合也各有不同。
11.3 F2 数仓的主要组件有哪些?【主要 3 个】’
数据仓库:是一个由 源系统、数据集成 ETL 加载、数据存储区域 (必须:中央数据仓库,可选:ODS、立方体、数据集市、主数据、暂存区)等众多组件组成的数据管理系统。
11.4 商务智能
商务智能是一套完整的数据解决方案,旨在用来将企业中现有的数据进行有效的整合,快速提供的提供报表并提出决策依据,帮助企业做出明智的业务经营决策的一系列分析活动和技术应用,常见的应用包括统计分析、仪表盘、数据大屏等。
(以业务人员用数需求为中心:固定报表、指标多维查询分析、明细数据、管理层决策仪表盘、移动端可视化应用、数据挖掘模型应用、数据模板)。
Q:商务智能与数仓、大数据区别?
A:商务智能 BI 主要用作前端分析展现(统计分析、仪表盘、数据大屏)(powerBI)。
数仓是后台,主要用于管理后端数据(hive),数据仓库与商务智能不一样,数据仓库强调 BI。
大数据强调 AI。
涉及银行金融机构:客户领域、风控领域、运营领域。
新客户获取模型、客户交叉营销模型、客户细分明细模型、客户激活模型、客户价值提升模型、客户维挽模型、支付路径优化模型、客户经营能力分析模型、内部审计模型、客户信用风险预警模型、贷款控制点分析、盈利能力预测模型、网点选址模型。
11.5 F1Inmon 和 Kimball 关于数仓的差别有哪些?
Inmon(数据仓库之父)关系型,Kimball 多维性。
企业信息工厂(Bill Inmon):企业信息工厂是两种主要的数据仓库建设模式之一,是面向主题的、整合的、随时间变化的、包含汇总和明细的、稳定的历史数据集合。
多维数据仓库(Ralph Kimball):多维数据仓库是数据仓库开发的另一个主要模式,仓库数据存储在多维数据模型中,以维度和事实定义。
常见模型包括星型和雪花型等。
Q1:张三,2021 年,上海,卖出多少车,维度和指标?(多维模型)
A1:4 个维度(员工张三,时间 2021 年,地点上海,产品汽车),1 个指标(多少辆)。
Kimball 图更清晰(组件及组件之间的关系,需要了解血缘关系)。注意 kimball 图中,右侧数据访问工具至数据展示区的访问箭头,数据访问工具中区分 BI 和 AI,
BI:即席查询、报表撰写、分析型应用;
AI:模型预测、打分、数据挖掘。
考试暂时不用管上面 2 个图。
11.6 F4&Q 数仓、数据湖、数据中台的相同点和不同点有哪些?【重要】
数仓: 结构化数据进入数仓、ETL、业务场景是明确的,交付物对已经发生的事情的总结或展现,侧重 BI;(但也可以做 AI)国内企业100%。
数据湖: 结构化数据+非结构化数据进入数据湖,ELT,业务场景是不一定明确的,交付物对未知的预测或挖掘,侧重 AI;(也可以做BI)国内企业40%。
数据中台: 建设在数仓、数据湖之上,更多的是打标签、归类等工作,平台层数据在数仓、数据湖中,在此基础上,建设数据中台【阿里巴巴图是关键】)国内企业 20%。
关系:数据仓库构建了企业级的数据模型,大数据平台在此基础上进行拓展,解决了海量、实时数据的计算和存储问题,而数据中台则是将数据服务化后提供给业务系统,目标是将数据能力渗透到各个业务环节。
上图为阿里巴巴示范图,从下往上(国外示范图习惯从左往右)。
数据源→采集与转化→平台层→数据中台。
Q1:采集与转化中,由哪几部分构成?
A1:一般由 4 部分构成,
1)结构化数据采集 ETL+ESB;
2)非结构化数据采集File;
3)实时数据采集 Kafka+ws;
4)流数据(无法进入数仓,需要在数据湖中处理)。
Q2:阿里巴巴认为的平台层有哪些?
A2:3+1 数据仓库、大数据平台(所谓的数据湖)、实时数据处理、数据实验室(不上生产系统,做 POC)。
平台层之上为数据中台(阿里巴巴创造名称,上图中绿色部分):主要为指标、标签等工作,如精准营销、业务分析、智能客服、客户洞察、产品洞察、行业洞察、智能运营、风险监控、财务分析、大数据运维、数据可视化、数据共享、标签库、离线分析、在线分析、海量检索、机器学习、NLP 自然语言处理、计算机视觉、知识图谱/关系图谱。
11.7 F5 数仓和数据湖的架构图【最有可能画设计图,数仓、数据湖、数据中台,非常重要!】
数据通过源运营系统进入集结区域,可直接到 ODS,也可以进入中心仓库。注意 ODS 双向箭头中心仓库,ODS 不是进入数仓的必备环节,而是与数仓平级(阿里巴巴图是不正确的,ODS 不是贴源层)。最下方 DW 也可以进数据湖。
右侧上方影响报告为 BI,下方比较、评估、预测、学习为 AI。
目前 BI 软件不能用作 AI 分析,但 AI 软件(Rapidminer)部分可用作BI。
阿里巴巴图:
Iso:组件、组件之间的关系、设计原则。
Q2:已经有数仓的情况下,为什么还要建设数据湖?
A2:判断业务场景,客服中心接电话,由经理监听电话判断是否认真工作,现在有音频要求,但目前数仓无法处理音频,所以需要建设数据湖,如果有大量非结构化数据需要处理,建立数据湖。
11.8 ETL 和 ELT 区别【面试会问】
ETL:目标数据仓库。
ELT:目标数据湖。
11.9 F3 数据分析的自助服务是什么?(PPTP85)
Dataselfservice 低代码软件(无需编程):PowerBI 出BI 报告,Rapidminer(人工智能)做预测及挖掘。
根据用户权限提供各种功能。
按照标准计划推送给用户。
提供自助服务。通过门户执行报表取数。
以业务为中心构建仪表板。
11.10 F6 数仓的一些疑难问题,比如 SCD、星型和雪花模型的融合等?
Q1:SCD 如何解决?【参考第 5 章】
A1:渐变类维度 slow changing dimensions
1.覆盖 Overwrite,新值覆盖旧值。
2.新行 New Row,新值写在新行中,旧行被标记为非当前值。
3.新列 New Column,一个值的多个实例列在同一行的不同列中,而一个新值意味着将系列中的值向下一点写入,以便在前面为新值流出空间。最后一个值被丢弃。
Q2:星型和雪花模型
A2:星型没有层级(日期维度),雪花模型有层级关系(如日期→月→季→年)。
Q3:CDC change Data capture 增量抽取方法【可能会考选择题】
A3:4 种 CDC 方法(时间戳增量加载、日志表增量加载、数据库交易日志、消息增量),数据量最大的 CDC 是全量加载。
11.11 F7 指标体系
数据自助服务有赖于 2 部分建设:元数据管理(首要工作),指标体系建设。
建立企业级指标体系的意义:纵向、横向比较。指标口径清晰,统一规范;
支持用户的自助灵活用数;有效控制报表开发成本。
Q:针对银行业金融机构有哪些指标?
A:核心价值指标(盈利性指标、业务运营指标、资源和局限性指标、宏观经济指标等)。
关键指标(对银行的业务经营和管理决策具有重要意义,作为核心价值指标的补充(通过指标重要性评分得出),形成上百个关键指标提供用户使用)。
常用指标(绩效考核、风险管理、财务报告、监管统计)。
基础指标库(客户经理指标、产品经理指标、信贷评审员指标)。数据来源系统(涵盖外部监管,如(银监会、人民银行)统计要求、银行高管统计需求(如行长报告)、各业务条线统计需求(如支付结算、信用卡、产品管理、投资理财、渠道管理、客户资产管理、投资银行、信贷、贸易融资等)、机构和员工绩效考核需求、以及同业领先实践补充)。
建立指标和维度的主题应用场景和多维模型(不再是传统意义上的多维模型,而是 ROLAP,基于关系型数据库,对接多维方法的多维模型)。
Q:保障指标落地难点有哪些?
A:1)调整组织架构;
2)主数据定了标准,可能无法贯标;
3)指标体系。
相关软件:
PowerBI 创建报表。
Kettle 做 ETL(美国用 talend 较多)。
Mahout 做推荐引擎。
CIA、美国军方使用组合:数据仓库数据库 Netezza,数据集成ETL Obention,前端 palantir(找到本拉登的,《指环王》剧中能穿越时空、看到一切的水晶球)。
在数仓中规划落实元数据
案例:上海一家银行指标体系(3k 多指标)。
参考书《阿里巴巴零售模型白皮书》。
版权归原作者 joewdc 所有, 如有侵权,请联系我们删除。