第一章
一、填空题
1.对原始数据进行有效的__清洗___是大数据分析和应用过程中的关键环节。
2.数据质量的评价指标有准确性 ___完整性__、简洁性、适用性_____。
3.数据质量的问题可以分为两类,分别是__基于数据源的脏数据分类___________和基于清洗方式的脏数据分类。
4.____数据清洗__________技术是提高数据质量的有效方法。
5.常见的数据质量问题主要包括缺失值、___重复值_______以及错误值等问题。
二、判断题
1.(×)若直接使用原始数据的话,不会影响数据决策的准确性和效率。
2.(√)从数据清洗方式的设计者角度来看,可以将脏数据分为“独立型脏数据”和“依赖型脏数据”两类。
3.(×)依赖型脏数据主要包括缺失数据和拼写错误数据等脏数据。
4.(×)数据清洗目的是要是将“脏数据”洗掉。
5.(√)基于数据源的脏数据分类的数据质量问题可以分为单数据源问题和多数据源问题。
三、选择题
1.C下列选项中,哪个才是评价数据质量的核心准则?
A.完整性
B.准确性
C.适用性
D.简洁性
2.ABCD下列策略中,哪个策略属于一般的数据清洗策略?
A.手工清洗
B.自动清洗
C.特定应用领域
D.与特定应用领域无关
3.C下列说法中,关于清洗重复值说法正确的是。
A.清洗重复值的基本思想是“分而合之”。
B.清洗重复值的基本思想是“排序”。
C.清洗重复值的基本思想是“排序和合并”。
D.清洗重复值的基本思想是“合并”。
第二章
一、****填空题
1.__ETL__是实现商务智能(Business Intelligence,即BI)的核心和灵魂。
2.ETL是将业务系统的数据经过抽取、_清洗转换__之后加载到数据仓库的过程。
- ETL的实现有多种方式,常见方式有借助 ETL工具 、编写SQL语句、 ****将ETL工具和SQL语句结合使用 **** 。
4.数据的抽取分为数据的全量抽取和数据的 ****增量抽取 **** 。
5.不符合要求的数据主要有不完整的数据、 ****错误的数据 **** 、重复的数据三大类。
二、判断题
1.(√)基于ETL的数据清洗是挖掘有价值数据的一种方案。
2.(×)如果数据源为外部文件,可使用SQL语句进行数据清洗工作。
3.(×)不完整数据主要包括日期越界的数据。
4.(√)重复数据检测主要分为基于字段和基于记录的重复检测。
5.(×)Kettle是一款国外免费开源的ETL工具,纯Python语言编写。
三、选择题
1.D下列方式,哪个不属于增量抽取的?
A.触发器方式
B.时间戳方式
C.全表比对方式
D.批量抽取方式
2.A下列算法中,哪个算法不可用于检测重复记录?
A.编辑距离算法
B.优先队列算法
C.N-Gram 聚类算法
D.排序邻居算法
第三章
一、****填空题
1._****_Kettle****_是一款国外免费开源的轻量级ETL工具。
2.Kettle可以在Windows、 ****Linux **** 、Unix系统上运行,并且是绿色无需安装的。
3.Kettle的集成开发环境 Spoon 提供了一个基于SWT的图形用户界面,主要用于ETL的开发。
4.一个数据抽取过程主要包括创建一个作业,并且每个作业可以包括多个 转换 操作。
5.转换中的步骤是通过 跳 来连接的。
二、判断题
1.(√)Kettle中,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。
2.(×)Kettle中,一个作业只包含一个作业项。
3.(×)转换跳是作业项之间的连接线,它定义了作业的执行路径。
4.(×)定义一个Kettle的数据库连接,是要真正打开一个到数据库的连接。
5.(√)作业执行的顺序由作业项之间的跳和每个作业项的执行结果来决定。
三、选择题
1.C下列设计原则,哪个不属于Kettle的设计原则?
A.避免自定义开发
B.灵活的数据通道
C.可维护性与可扩展性的原则
D.只映射需要映射的字段
2.D下列类别,哪个不属于作业管理?
A.邮件
B.文件管理
C.条件
D.应用
3.ABCD下列组件中,哪个组件属于Kettle工具?
A.Spoon
B.Pan
C.Kitchen
D.Carte
第四章
一、****填空题
1.在实际应用中,常用的文本文件类型有两种,分别是TSV文件和 CSV文件 文件。
2.制表符文件中的数据是以 表格 的结构进行储存。
3.使用 逗号 分隔数据字段的文件被称为逗号分隔值文件。
4.HTML可以以 文档 的形式展示,HTML文档中包含 ****标签 **** 和纯文本。
5. **** JSON **** 是一种轻量级的数据交换格式。
二、判断题
1.(×)XML是一种和HTML完全相同的标记语言。
2.(×)JSON是一种编程语言。
3.(√)通过制表符分隔的文本数据与未使用制表符分隔的数据相比,前者更便于观察识别,同时也方便对数据进行抽取操作。
4.(√)CSV文件是以纯文本形式存储表格数据(数字和文本)。
5.(×)NoSQL是No! SQL的缩写。
三、选择题
1.B下列实现原则中,哪个不属于CSV的实现原则?
A.文件开头不能留空,以“列”为单位
B.在文件读写时,引号和逗号操作规则不可互逆
C.文件中不支持数字或特殊字符
D.文件中的一行数据不能跨行,但是行与行间可存在空行
2.D下列关于XML用途的说法中,哪个说法是正确的?
A.XML不可将数据从HTML中分离
B.XML无法简化数据共享
C.XML无法使数据充分利用
D.XML可用于创建新的互联网语言
3.B下列数据库中,哪个数据库属于非关系型数据库?
A.MySQL
B.MongoDB
C.Oracle
D.SQL Server
第五章
一、****填空题
1.常见的数据清洗操作包括重复值的处理、 ****缺失值的处理 **** 、异常值的处理。
2.数据缺失分为两种,分别是行记录的缺失和 **** 数据列值的缺失 **** 。
3.异常值的检测方法通常分为三大类,即 ****无监督式异常值的检测 **** 、监督式异常值的检测以及 半监督式异常值的检测 。
4.数据的一致性有三种类型,即强一致性、 **** 弱一致性**** 以及最终一致性。
5.修补异常值的方式主要有两种,即 **** 修改异常值 **** 和替换异常值。
二、判断题
1.(×)完全去重指的是消除不完全重复的数据。
2.(×)缺失值产生的原因主要是人为原因。
3.(√)箱型图又称为箱线图,是一种用于显示一组数据分散情况的统计图。
4.(×)数据一致性是指在对一个副本数据进行更新的同时,无需确保也能够更新到其他的副本。
5.(√)检查数据都必须遵守预定义的业务规则,找出不符合业务规则的数据。
三、选择题
1.C下列方法中,哪个方法不是填充缺失值的方法?
A.均值填充
B.热卡填充
C.3σ准则
D.回归填充
2.A下列规范中,为了提高数据的可读性及合理性,企业会要求数据遵守哪些规范?
A.电子邮箱的地址必须是有效的格式
B.用户的年龄必须小于18岁
C.数值可超过预定义的值
D.电话号码无须是xxx-xxxx-xxxx的格式
3.D下列策略中,哪个策略不属于修改异常值的策略?
A.最邻近值替代异常值
B.均值替代异常值
C.众数替代异常值
D.异常值替换成缺失值
第六章
一、填空题
1.__****_数据转换****_____是数据清洗过程的重要步骤之一。
2. 不一致数据转换 主要是将不同业务系统中的相同类型的数据进行统一。
3. 一般情况下,会将业务系统数据按数据仓库粒度进行聚合,这个过程被称为 ****数据粒度的转换 **** 。
第七章
一、****填空题
1.数据的加载机制可以分为 ****全量加载 **** 和增量加载。
2.增量加载是指目标表仅加载源数据表中 ****新增和发生变化 **** 的数据。
3.当数据迁移量过于庞大时,需要针对数据采取 ****批量加载 **** 操作。
版权归原作者 Kc77 所有, 如有侵权,请联系我们删除。