0


以数据安全为核心的安全立体防御体系解决方案

基础平台建设知识星球APP【智慧方案文库】,下载完整PPT

1、数据集成要提高数据使用效率,打破数据库之间的物理隔阂,需要先将数据汇聚到数据仓库中,数据同步分为实时和非实时,采用的技术也不同。目前先从ODS中同步到hive。数据同步策略的类型包括:全量表、增量表、新增及变化表、拉链表:Ø 全量表:存储完整的数据。Ø 增量表:存储新增加的数据。Ø 新增及变化表:存储新增加的数据和变化的数据。Ø 拉链表:对新增及变化表做定期合并。

2、实体表同步策略

实体表:比如用户,理财产品等,实体表数据量比较小,通常可以做每日全量,是每天存一份完整数据。即每日全量。

(1)维度表同步策略

维度表:比如订单状态,审批状态,产品分类,维度表数据量比较小,通常可以做每日全量,是每天存一份完整数据。即每日全量。说明:

针对可能会有变化的状态数据可以存储每日全量。

没变化的客观世界的维度(比如性别,地区,民族)可以只存一份固定值。

(2)事务型事实表同步策略

事务型事实表:比如,交易流水,操作日志,出库入库记录等。因为数据不会变化,而且数据量巨大,所以每天只同步新增数据即可,所以可以做成每日增量表,即每日创建一个分区存储。

(3)周期型事实表同步策略

周期型事实表:比如订单申请等2、数据存储存储的数据包含业务数据和元数据。存储的数据分为四层,每一层采用的存储方式和数据不同,如下:

ODS层:原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理,目前系统中已经存在。

DWD层:结构和粒度与原始表保持一致,对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据),DWD数据采用hive的方式管理,将从ODS中的数据同步到hive。

DWS层:以DWD为基础,进行轻度汇总,如将用户的基本信息从各个业务系统中合并为一张宽表,此层的数据仍然存储在hive中。

ADS层:数据应用也即数据应用开发层,通过数据计算层的计算后,根据数据类型的不同可以存储到不同的存储器中,如文本型查询的数据可以存储的ES中,对计算结果的查询可以存储在SqlServer中。

4175603074e84bce54e906c962dcd67f.jpeg

3、元数据管理通过Atlas来管理Hive中的元数据,形成元数据目录,以此设计出元模型,然后将数据仓库系统之中的元数据按元模型集中汇总并关联到一起,达到企业对数据统一管理与应用的目的。业务元数据相对复杂,来源较广泛且不统一,需要对业务系统进行深入理解,按业务主题进行整理,梳理出业务范围、业务名称 、业务定义、业务描述、业务关系等,并添加到元数据管理系统中,主要作用实现如下:

元数据权限管理:对数据管理需要有权限的管理员管理,是关乎到数据质量的关键。

元数据质量:包含元数据一致性检查,对异常或者不符合规则的数据告警。

数据血缘分析:数据产生的链路或者路径,例如通过数据 A 数据 B 产生了数据 C,那么 C 的父血缘就是 A 和 B,反之亦然。在大数据套件中描述数据“父子”关系,以思维导图形式展现了数据变化影响和数据生产溯源,清晰刻画表与表之间、任务与任务之间的关系。如图,是红楼梦的数据血缘关系。

1、数据计算数据计算由数据管理员来实现,解决的问题根据业务需要对数据融合得出的数据结果。计算层分为离线计算和实时计算。

2、业务流程数据管理人员可以在平台上可视化的对数据处理,先创建数据应用集合以及对应的数据表,然后在可视化界面上编写数据处理脚本,需要提交后台任务管理系统执行,执行完成后根据数据要求存储到不同的数据器中。

3、离线计算针对数据量大、逻辑复杂的计算交由后台任务系统,调用Hive计算。将计算的结果可以存储到SqlServer或者ES中,根据数据需求场景不同而定。

4、实时查询针对业务频繁查询的场景,并且数据量大的数据计算完成后可以存储到ES,针对统计分析类同时数据量较大可以使用Presto来查询。

大数据数仓架构体系图

6f43f988d0093e08d242373ee2a03767.jpeg

数据仓库分层体系

目前数梦工场广泛应用于各行业的数仓分层体系有三种 , 如下:

76795719df92a8e91bb41aa9ac907a9f.jpeg

数据仓库分层体系一

ad2b20c9f3a8ed48cf91bc935c3d6d2b.jpeg

数据仓库分层模式一架构介绍

5d673aaf145ec5cfa4b985db031f9ace.jpeg

数据仓库分层体系二

cbb7b0683821608f8e9e12e571ec4824.jpeg

数据仓库分层模式二架构介绍

225b1ce00438df7bc720e8e2ff3cdf46.jpeg

数据仓库分层体系三

c166cbe4ca326cb09d3eac48dc265e23.jpeg

数据仓库分层模式三架构介绍

3fe5302bc78ff6b3f0e267be4380c0d2.jpeg

数据仓库实施流程

5d754ffc6f78450d1b7b7ea10b634c2f.jpeg

数据仓库实施关键步骤-模式一

b3dcb7dfec9ed9baf4d87cf150a2f013.jpeg

数据仓库实施关键步骤-模式二

9826173489fe00e5792fedda977563eb.jpeg

数据仓库实施关键步骤-模式三

aa2ce9080cf30f1b6fce57fffd9f3def.jpeg

数据仓库产品解决方案

54d73f84a07449ae94740dcb2a00522b.jpeg

数据服务

080df20189f0535fc38f4e7bdaf17549.jpeg

数据集成平台

4e64e2bf9a13a17a06f4b76b80c06ced.jpeg

数据治理平台

193c842e0514e1357ddf20da104e089d.jpeg

数据治理平台

50d3666d822d4312a02d2120c5e3b9ae.jpeg

数据开发产品

e8aacd5e0e9770a1067e856ed38a78d4.jpeg

01

以数据安全为核心的安全立体防御体系解决方案

b54e6532138927d867166438c2d3a02f.jpeg

59111ad9edbc149cd0c62695d2d12763.jpeg

50b35873d8cffa57ba374cab0001173f.jpeg

8558b84b1db49419c42899ed11f4c9f9.jpeg

3c9b4d663e9b181280a77e2ffafe81d0.jpeg

cc0e76c147834b1222383720352a9d00.jpeg

529459aab60f398bf9b5847f2c504277.jpeg

4e11ee8a8f78fab628d74d18ee6d5eb1.jpeg

bf0766f51891bf28581a3b6928b89d1b.jpeg

c2448772be3ca8b22919f951f48b894e.jpeg

a38a6067e338b3be59b0d251779bf917.jpeg

fd403dc1cba9044d99c53836e503513e.jpeg

745e0d491a73ab0ad55d697bffc456ce.jpeg

8e576f722acc35e97984bdc69c1c8cbb.jpeg

bf4634cb0c4237608f87af5e860219f3.jpeg

c6e545601ca6645ad3573603dfcb7832.jpeg

0a54d92fd03a64ca5065ce435ec9d397.jpeg

c8b103837acf7b16e5230a41114a1a5b.jpeg

d24986139c00c1e51e1fe462e78b59a1.jpeg

37536307bc411064c21bdae219db6063.jpeg

dd213be266ccc1c097a892922d70a6be.jpeg


本文转载自: https://blog.csdn.net/zuoan1993/article/details/140523455
版权归原作者 公众号:智慧方案文库 所有, 如有侵权,请联系我们删除。

“以数据安全为核心的安全立体防御体系解决方案”的评论:

还没有评论