13.0 语境关系图
13.1 如何开数据质量活动【重点,一定要知道 7 个步骤】
1. 定义高质量数据(P)。
2. . 定义数据质量战略(P)。
3. 识别关键数据和业务规则(P)。
4. 执行初始数据质量评估(P)(POC,proof of concept)初始质量评估,保留 SQL 语句。
定义评估的目标→确定要评估的数据→识别数据的用途和使用者→利用待评估的数据识别已知风险和影响→根据已知和建议的规则检查数据→记录不一致的级别和问题类型→根据初步发现进行额外的深入分析→与主要干系人确认问题和优先级→使用调查结果作为规划的基础。
5. 确定改进方向并排定优先顺序。
6. 定义数据质量改进目标(P)。
7. 开发和部署数据质量操作(D)。
13.2 关键数据
Q:就个人而言,什么是关键数据?【4 项】
A:PII 信息(如姓名、地址、电话号码、身份证)、个人财务信息、个人健康信息(PHI)、学习背景/教育记录。面试时问是否结婚,存了多少钱、在吃什么药,从哪里毕业是违法的,可以问是否有家庭因素影响出差?与工作相关。
Q:就企业而言,什么是关键数据?
A:监管报告、财务报告、商务政策、持续经营、商业战略(尤其是差异化竞争战略)。
Q:哪些行业是强监管行业?【2 个行业】
A:金融行业、医药卫生行业。
13.3 F1 评价数据质量的维度
名称可以自定义(完备性/不能有空值)。
数据质量定义流派:
•Strong-Wang:四个大类,15 个维度(2 个人,全面数据质量管理)。
•Thomas Redman:三个大类,20 多个维度。
•Larry English:两个大类,15 个维度。
•DAMA UK:两个大类,11 个维度。
Q:哪几个人是数据质量大咖?(3 个人)
A.strong-WangB.ThomasRedmanC.LarryEnglishD. 德鲁克A:ABC(在英国穿红衣强壮的王),德鲁克、威廉 bridge 是管理学大师。
13.4 F2 如何提高数据质量【DMBOK2 P370】&Q 什么问题导致数据质量低下?【5 个原因】针对这些问题该采取什么措施?【重点,DMBOK2 书上P346】
首先找到根本原因,然后进行 PDCA、数据质量的评估。
1. 缺乏领导力导致的问题(企业文化不到位,最常见的因素);
障碍:(1)领导和员工缺乏意识;(2)缺乏业务管理;(3)缺乏领导力和管理能力;(4)难以证明改进的合理性。
措施:(1)提高领导和员工意识;(2)完善业务管理能力;(3)提高领导力和管理能力;(4)证明改进的合理性。
2. 数据输入过程引起的问题;
问题:(1)数据输入接口问题;(2)列表条目放置;(3)字段重载;(4)培训问题;(5)业务流程的变更。
措施:(1)控制数据输入接口,防止不正确的数据被录入系统;(2);(3)及时更新数据模型和用户界面,防止字段重载;(4)提高培训,提高输入水平;(5)优化业务流程;
3. 数据处理功能引起的问题;
问题:(1)有关数据源的错误假设;(2)过时的业务规则;(3)变更的数据结构。
措施:(1)验证有关数据源的来源;(2)及时更新业务规则;(3)核实数据结构是否有变更,有变更及时改变业务规则。
4. 系统设计引起的问题;
问题:(1)未能执行参照完整性;(APP 上邮政编码是非必填项,改为必填项);(2)未执行唯一性约束;(3)编码不准确和分歧;(4)数据模型不准确;(5)字段重载;(6)时间数据不匹配;(7)主数据管理薄弱;(8)数据复制。
措施:(1)强制执行参照完整性,确保应用程序或系统级别的高质量数据;(2)执行唯一性约束;(3)提高编码的准确性;(4)提高数据模型的准确性;(5)防止字段重载;(6)确保时间数据匹配;(7)提高主数据管理能力,选择可靠的数据源;(8)避免不必要的、有害的数据复制主数据管理要提高。
5. 解决问题引起的问题。
问题:与其他未经测试的代码一样,如果修改需求之外的数据,或没有将补丁传送给受原始问题影响的所有历史数据的下游应用系统等,则极有可能导致更多的错误,并产生更高的风险。
措施:避免手动命令。所有的改变都应该通过一个受控的变更管理过程实现。相关数据修改及时通知到相关联的系统
13.5 数据质量评估
维度可以自定义(上图)。
完备性:字段的填充是必须的。
考虑国情和特性。(电子邮箱、邮政编码,国内与国外要求不一样)。
维度和业务规则、业务规则、度量、指标、衡量标准、例子。
13.6 数据考核 KPI 指标表考核维度(5 方面)
A 级:需要有数据质量体系考核报告。
P 级:需要有数据质量考核指标,量化,有相应的奖罚。
数据考核 KPI5 个考核维度:数据综合管理、数据质量管理、数据安全管理、数据标准管理、重点事项加分。
数据质量平衡记分卡的 6 个指标:完整性、唯一性、有效性、一致性、及时性、准确性。
13.7 什么情况需要开展 PDCA?
1.现有测量值低于阈值;(客户手机号需要达到 98%,结果只有95%,低于阈值,重新找到根本原因)。
2.新数据集正在调查中。
3.对现有数据集提出新的数据质量要求;(除了完备性98%之外,还有其他要求,如准确性要求,保险公司电话号码为中间人电话,非保险人电话)。
4.业务规则、标准或期望变更。
Q:每日表合成至每月表、每年表,是否需要 PDCA?
A:不需要,现有数据求和,无需 PDCA。
版权归原作者 joewdc 所有, 如有侵权,请联系我们删除。