0


元数据管理-解决方案调研三:元数据管理解决方案——开源解决方案

开源解决方案

3.1、Apache Atlas

Atlas 是一组可扩展和可扩展的核心基础治理服务——使企业能够有效和高效地满足其在 Hadoop 中的合规性要求,并允许与整个企业数据生态系统集成。
Apache Atlas 为组织提供开放的元数据管理和治理功能,以构建其数据资产的目录,对这些资产进行分类和治理,并为数据科学家、分析师和数据治理团队提供围绕这些数据资产的协作功能。
地址:https://atlas.apache.org
特点:
1、元数据类型和实例
1.1、各种 Hadoop 和非 Hadoop 元数据的预定义类型
1.2、能够为要管理的元数据定义新类型
1.3、类型可以有原始属性、复杂属性、对象引用;可以从其他类型继承
1.4、类型的实例,称为实体,捕获元数据对象详细信息及其关系
1.5、用于处理类型和实例的 REST API 允许更轻松的集成
2、分类
2.1、能够动态创建分类 - 如 PII、EXPIRES_ON、DATA_QUALITY、SENSITIVE
2.2、分类可以包括属性 - 如 EXPIRES_ON 分类中的 expiry_date 属性
2.3、实体可以与多个分类相关联,从而更容易发现和安全实施
2.4、通过谱系传播分类 - 自动确保分类在数据经过各种处理时跟随数据
3、血缘
3.1、直观的 UI 可在数据通过各种流程时查看数据的血缘
3.2、用于访问和更新谱系的 REST API
4、搜索/发现
4.1、直观的 UI,可按类型、分类、属性值或自由文本搜索实体
4.2、丰富的 REST API 可按复杂条件进行搜索
4.3、用于搜索实体的 SQL 之类的查询语言 - 领域特定语言 (DSL)
5、安全和数据屏蔽
5.1、元数据访问的细粒度安全性,支持对实体实例的访问和添加/更新/删除分类等操作的控制
5.2、与 Apache Ranger 的集成支持基于与 Apache Atlas 中实体关联的分类对数据访问进行授权/数据屏蔽。例如:谁可以访问归类为 PII、敏感的数据。客户服务用户只能看到归类为 NATIONAL_ID 的列的最后 4 位数字

3.2、Datahub

Datahub也是业界比较熟悉的一款工具, 支持数据发现、数据可观察性和联合治理。其特点:
1、开源
2、庞大的生态系统:DataHub 已集成Kafka、Airflow、MySQL、SQL Server、Postgres、LDAP、Snowflake、Hive、BigQuery 等等。
3、DataHub 遵循基于推送的架构,这意味着它是为不断变化的元数据而构建的。模块化设计使其能够随着任何组织的数据增长而扩展。
地址:A Metadata Platform for the Modern Data Stack | DataHub

3.3、Amundsen

Amundsen是一款开源数据发现和元数据引擎。其特点如下:
1、发现数据:通过简单的文本搜索搜索数据。受PageRank 启发的搜索算法会根据表格/仪表板上的名称、描述、标签和查询/查看活动推荐结果
2、查看自动化和精选的元数据:使用自动化和精选的元数据建立对数据的信任——表和列的描述、其他常用用户、表上次更新时间、统计信息、数据预览(如果允许)等。 通过链接 ETL 作业和生成的代码轻松分类数据。
3、协作:通过描述更新表和列,关于使用哪个表和列以及包含什么的问题,减少不必要沟通。
4、共享:查看同事经常使用、拥有或添加书签的数据。通过查看在给定表上构建的仪表板,了解最常见的表查询是什么样的。
地址:Amundsen, the leading open source data catalog

4、Lake Discovery

4.1、Databricks Unity Catalog
Unity Catalog 是由Databricks开发的一款统一目录数据和人工智能的细粒度治理工具,可与您现有的目录、数据和存储系统配合使用,因此您可以利用现有投资并构建面向未来的治理模型。例如,它允许您在 Apache Hive Metastores 或 Amazon S3 中挂载现有数据,并跨高级安全解决方案(如 Immuta 或 Privacera)管理策略,同时使用 ANSI SQL DCL 管理权限,所有这些都集中在一处。
其特点如下:
1、Unity Catalog UI 让您可以轻松地在一处地方发现、审核和管理数据资产。数据血缘、基于角色的安全策略、表或列级标签以及中央审计功能使数据管理员可以轻松自信地管理和保护数据访问,直接在 Lakehouse 上满足合规性和隐私需求。

2、Unity Catalog 通过开放标准 ANSI SQL DCL 为跨云的数据资产带来细粒度的集中治理。这意味着数据库管理员可以使用熟悉的 SQL 轻松地授予对任意、特定于用户的视图的权限,或对标记在一起的所有列设置权限

3、每个组织都需要与客户、合作伙伴和供应商共享数据,以更好地协作并从他们的数据中释放价值。 Unity Catalog 建立在开源 Delta Sharing 之上,以集中管理和治理组织内部和组织之间的共享资产。

地址:Unity Catalog - Databricks

标签: 开源 hadoop 大数据

本文转载自: https://blog.csdn.net/sysocc/article/details/127901456
版权归原作者 mylife512 所有, 如有侵权,请联系我们删除。

“元数据管理-解决方案调研三:元数据管理解决方案——开源解决方案”的评论:

还没有评论