大数据ETL说明（外）

大数据ETL说明（外）

原文地址：https://pusdn-dev.feishu.cn/docx/G4VddZVtSoJTcvxOHAccxk8Hnph

自动化一站式流程处理。整个过程通过配置流程可以实现自动化执行，无需或少部分需要人工处理。

数据清洗
数据清洗是清洗脏数据，是指在数据文件中发现和纠正可识别错误的最后一个程序，包括检查数据一致性、处理无效值和缺失值。
那么数据中有哪些类型的脏东西呢？主要有四类：异常值、空值、重复值以及数据格式。
过滤：使用Java中的循环和条件语句对数据进行逐行筛选，对不符合要求的数据进行过滤，例如根据指定的条件过滤掉异常值、重复值等。
正则表达式：使用正则表达式对数据进行匹配和替换，可以用来处理数据中的噪声、无关信息和格式问题。
第三方库：使用Java中提供的第三方库，例如Apache Commons CSV、OpenCSV等，可以对CSV格式的数据进行读取、清洗和写入操作。
数据库：如果需要对大量数据进行清洗，可以考虑将数据存储在数据库中，使用SQL语句对数据进行筛选、聚合和更新等操作。
大数据清洗工具：还可以使用一些专门的大数据清洗工具，例如RapidMiner、Orange等，这些工具提供了可视化界面和代码生成等功能，可以帮助快速清洗大量数据。
分布式计算框架：Hadoop、spark等
元数据管理
元数据（Metadata）是关于数据的数据，指对数据进行描述和说明的数据，包括数据的标识、类型、格式、来源、创建时间、修改时间等。。元数据管理是数据仓库中不可或缺的一部分，可以帮助用户更好地理解数据。
元数据检索/全文检索

数据源
数据源（Data Source）是指数据的来源，包括数据仓库、数据库、文件系统、传感器等。数据源是数据仓库和数据挖掘系统中数据的来源，对数据的质量和可靠性有直接的影响。
常见方式：
网络爬虫
API接口
SQL查询
文件导入
第三方数据源
传感器数据
调查问卷
实地调研
数据仓库

| 数据仓库是一种专门用于存储和分析数据的系统。它是一个集成的、一致的、历史的、经过清洗的数据存储，可以帮助企业更好地理解其业务和客户，并做出更好的决策。
数据仓库的主要特点包括：
数据集成：数据仓库从各种不同的数据源中收集数据，并将其集成到一个统一的系统中。
数据清洗：数据仓库中的数据需要经过清洗和转换，以确保其质量和准确性。
元数据管理：元数据是关于数据的数据，包括数据的来源、格式、含义等。元数据管理是数据仓库中不可或缺的一部分，可以帮助用户更好地理解数据。
数据分析：数据仓库中的数据可以通过各种分析方法进行分析，以帮助企业做出更好的决策。
数据分析
数据仓库中的数据可以通过各种分析方法进行分析，以帮助企业做出更好的决策。
数据质量
有效性：
数据符合定义的业务规则或约束的程度
数据类型约束：特定列中的值必须具有特定数据类型，例如布尔值，数字，日期等。
范围约束：通常，数字或日期应在一定范围内。
强制性约束：某些列不能为空。
唯一约束：一个字段或多个字段的组合在整个数据集中必须唯一。
Set-Membership约束：列的值来自一组离散值，例如枚举值。例如，一个人的性别可以是男性或女性。
外键约束：如在关系型数据库中一样，外键列不能具有所引用的主键中不存在的值。
正则表达式模式：必须采用特定模式的文本字段。例如，可能要求电话号码的格式为（999）999–9999。
跨字段验证：必须满足跨越多个字段的某些条件。例如，患者出院日期不能早于入院日期。
准确性：数据接近真实值的程度。
定义所有可能的有效值可以轻松发现无效值，但这并不意味着它们是准确的。
完整性：指数据的完整性和全面性，即数据是否包含了所需的全部信息。完整性标准包括数据缺失率、数据冗余度等指标。
一致性：数据在同一数据集中或在多个数据集中的一致性程度。
附件下载
https://caiyun.feixin.10086.cn:7071/portal/cloudItem/index.html?path=acceptInvite&id=AIVp6%252BHL9%252BhdAXiAM%252BnY2eqVAXURsfWuv8I97X9tSTo%253D0001688614147097&phone=151****0468

标签：大数据 etl 数据仓库

本文转载自: https://blog.csdn.net/qq_31708763/article/details/131574592
版权归原作者 JaneYork 所有，如有侵权，请联系我们删除。

大数据ETL说明（外）

发表评论

“大数据ETL说明（外）”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航