大数据ETL说明(外)
原文地址:https://pusdn-dev.feishu.cn/docx/G4VddZVtSoJTcvxOHAccxk8Hnph
自动化一站式流程处理。整个过程通过配置流程可以实现自动化执行,无需或少部分需要人工处理。
数据清洗
数据清洗是清洗脏数据,是指在数据文件中发现和纠正可识别错误的最后一个程序,包括检查数据一致性、处理无效值和缺失值。
那么数据中有哪些类型的脏东西呢?主要有四类:异常值、空值、重复值以及数据格式。
过滤:使用Java中的循环和条件语句对数据进行逐行筛选,对不符合要求的数据进行过滤,例如根据指定的条件过滤掉异常值、重复值等。
正则表达式:使用正则表达式对数据进行匹配和替换,可以用来处理数据中的噪声、无关信息和格式问题。
第三方库:使用Java中提供的第三方库,例如Apache Commons CSV、OpenCSV等,可以对CSV格式的数据进行读取、清洗和写入操作。
数据库:如果需要对大量数据进行清洗,可以考虑将数据存储在数据库中,使用SQL语句对数据进行筛选、聚合和更新等操作。
大数据清洗工具:还可以使用一些专门的大数据清洗工具,例如RapidMiner、Orange等,这些工具提供了可视化界面和代码生成等功能,可以帮助快速清洗大量数据。
分布式计算框架:Hadoop、spark等
元数据管理
元数据(Metadata)是关于数据的数据,指对数据进行描述和说明的数据,包括数据的标识、类型、格式、来源、创建时间、修改时间等。。元数据管理是数据仓库中不可或缺的一部分,可以帮助用户更好地理解数据。
元数据检索/全文检索
数据源
数据源(Data Source)是指数据的来源,包括数据仓库、数据库、文件系统、传感器等。数据源是数据仓库和数据挖掘系统中数据的来源,对数据的质量和可靠性有直接的影响。
常见方式:
网络爬虫
API接口
SQL查询
文件导入
第三方数据源
传感器数据
调查问卷
实地调研
数据仓库
| 数据仓库是一种专门用于存储和分析数据的系统。它是一个集成的、一致的、历史的、经过清洗的数据存储,可以帮助企业更好地理解其业务和客户,并做出更好的决策。
数据仓库的主要特点包括:
数据集成:数据仓库从各种不同的数据源中收集数据,并将其集成到一个统一的系统中。
数据清洗:数据仓库中的数据需要经过清洗和转换,以确保其质量和准确性。
元数据管理:元数据是关于数据的数据,包括数据的来源、格式、含义等。元数据管理是数据仓库中不可或缺的一部分,可以帮助用户更好地理解数据。
数据分析:数据仓库中的数据可以通过各种分析方法进行分析,以帮助企业做出更好的决策。
数据分析
数据仓库中的数据可以通过各种分析方法进行分析,以帮助企业做出更好的决策。
数据质量
有效性:
数据符合定义的业务规则或约束的程度
数据类型约束:特定列中的值必须具有特定数据类型,例如布尔值,数字,日期等。
范围约束:通常,数字或日期应在一定范围内。
强制性约束:某些列不能为空。
唯一约束:一个字段或多个字段的组合在整个数据集中必须唯一。
Set-Membership约束:列的值来自一组离散值,例如枚举值。例如,一个人的性别可以是男性或女性。
外键约束:如在关系型数据库中一样,外键列不能具有所引用的主键中不存在的值。
正则表达式模式:必须采用特定模式的文本字段。例如,可能要求电话号码的格式为(999)999–9999。
跨字段验证:必须满足跨越多个字段的某些条件。例如,患者出院日期不能早于入院日期。
准确性:数据接近真实值的程度。
定义所有可能的有效值可以轻松发现无效值,但这并不意味着它们是准确的。
完整性:指数据的完整性和全面性,即数据是否包含了所需的全部信息。完整性标准包括数据缺失率、数据冗余度等指标。
一致性:数据在同一数据集中或在多个数据集中的一致性程度。
附件下载
https://caiyun.feixin.10086.cn:7071/portal/cloudItem/index.html?path=acceptInvite&id=AIVp6%252BHL9%252BhdAXiAM%252BnY2eqVAXURsfWuv8I97X9tSTo%253D0001688614147097&phone=151****0468
版权归原作者 JaneYork 所有, 如有侵权,请联系我们删除。