前言
本文隶属于专栏《大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!
本专栏目录结构和参考文献请见大数据技术体系
WHAT
Apache Atlas 是一个开源的元数据管理和数据治理工具,使数据团队能够从多个数据源摄取、发现、编目、分类和管理数据资产。
大数据的现代数据治理超越了基于角色的访问控制和基于属性的访问控制,Atlas 充分利用了额外的元数据来定义和传播新类型的分类。
Atlas 的核心是为敏捷地轻松建模新的业务流程和数据资产。
Apache Atlas目前支持从以下来源摄取元数据:
- Hive
- HBase
- Storm
- Kafka
- Sqoop
Apache Atlas 使企业能够通过一套可扩展的核心治理服务有效和高效地满足其合规要求。这些服务包括:
- 数据图谱:在平台级别捕获跨 Hadoop 组件的图谱
- 敏捷数据建模:类型系统允许在层次分类法中自定义元数据结构
- REST API:现代、灵活地访问 Atlas 服务、HDP 组件、UI 和外部工具
- 元数据交换:通过从当前工具导入现有元数据/模型来利用它。将元数据导出到下游系统。
Apache Atlas 起源
Atlas 由 Hortonworks 在数据治理倡议(DGI)的保护伞下孵化,并于 2015 年 5 月加入官方的 Apache 基金会孵化器,在那里生活和成长,直到 2017 年 6 月作为顶级项目毕业。
最初的重点是 Apache Hadoop 环境,尽管 Apache Atlas 不依赖 Hadoop 平台本身。
开源项目继续看到同比稳定的发展,Hortonworks、Aetna、Merck 和 Target 等组织的提交者做出了有益的贡献。
至于未来,随着元数据本身成为大数据,Apache Atlas 可以被视为现代数据平台的基石之一。
Apache Atlas 功能
- 数据分类
- 集中式元数据
- 搜索和血缘
- 安全与策略引擎
孵化器项目定义的Apache Atlas的核心功能包括以下内容:
数据分类
在 Hadoop 等数据平台内建立对数据的理解,并向外部和内部来源提供这些数据的分类。
Apache Atlas 使您能够自动创建 PII、敏感数据和其他敏感数据的分类。
数据资产可以与多个分类相关联。
您还可以通过谱系传播策略,从而自动确保派生数据继承相同的分类和安全控制。
集中审计
Apache Atlas 可以定义新的元数据类型,并通过公共元数据存储轻松交换元数据。
这允许跨多个元数据存储库的互操作性,这是构建现代数据堆栈的核心要求之一。
搜索和血缘
Apache Atlas 为一个人配备了直观的用户界面,可以按类型、分类、属性值或自由文本对数据类型进行预定义和临时探索。
它还维护了数据源或显式数据是如何构建的,以及它如何随着时间的推移而演变的历史。
也可以通过静态 API 访问和更新血缘。
安全与策略引擎
Apache Atlas 主要是一个数据治理工具。
它允许元数据访问的粒度细粒度安全性,能够设置对实体实例访问的控制,并设置添加/更新/删除分类等操作。
与 Apache Ranger 集成还允许根据与数据资产相关的分类对数据进行屏蔽/授权控制。
关于 Apache Ranger 请参考我的博客——Apache Ranger 是什么?
版权归原作者 Shockang 所有, 如有侵权,请联系我们删除。