0


CDH/CDP 是什么?

前言

本文隶属于专栏《大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和参考文献请见大数据技术体系


CDH

在这里插入图片描述

CDH ( Cloudera Distribution Hadoop )是 Cloudera 公司提供的包含 Apache Hadoop 及其相关项目的软件发行版本。

还有一种说法是 CDH 是 Cloudera Distribution including Apache Hadoop 的缩写。

CDH 的所有组件都是 100% 开源的(Apache License),是唯一提供统一批处理、交互式 SQL、交互式搜索以及基于角色的访问控制的 Hadoop 解决方案

通过将 Hadoop 与十几个其他关键开源项目集成,Cloudera 创建了一个功能先进的系统,可以帮忙你执行端到端的大数据工作流。


CDH 特性

  • 灵活性:存储任何类型的数据,并使用各种不同的计算框架进行操作,包括批处理、交互式SQL、文本搜索、机器学习和统计计算。
  • 集成:在完整的 Hadoop 平台上快速启动和运行,该平台可与广泛的硬件和软件解决方案配合使用。
  • 安全性:处理和控制敏感数据。
  • 可扩展性:启用广泛的应用程序,并根据要求进行扩容扩展。
  • 高可用性:能够胜任关键地方的业务任务。
  • 兼容性:利用现有的 IT 基础设施和资产。

CDP

CDH 6.3 是 CDH 的最后一个主要版本。

CDP(Cloudera Data Platform)是 CDH 的继任者。

CDP 是面向企业的云计算平台。

它提供集成的多功能自助服务工具,以分析和集中数据。

它在企业层面带来了安全和治理,所有这些都托管在公共、私有和多云部署上。

如果启动一项新项目,建议从 CDP 开始,因为这是 Cloudera 最新一代的技术。


CDP 特性

CDP 具有独特的公私合营方法、实时数据分析、可扩展的本地/云端和混合云部署选项,以及隐私优先的架构。

根据其官方网站,CDP 可以:

  • 必要时自动生成工作负载并在完成后暂停其操作,从而控制云成本
  • 使用分析和机器学习来优化工作负载
  • 显示所有云和瞬态集群的数据血缘关系
  • 使用单一的管理平台来使用混合云和多云
  • 可以扩展到 PB 级数据和成千上万多种多样的用户
  • 使用多云和混合环境集中控制客户和操作数据

CDP 有两个版本:CDP 公共云和 CDP 私有云。

CDP公有云

CDP 公共云是一种平台即服务 (PaaS),它与云基础架构兼容,并且可以在各种云提供商之间轻松传输,包括 OpenShift 等私有解决方案。

CDP 构建为完全混合和多云,这意味着一个平台可以处理所有数据生命周期用例,无论位置或云如何,具有一致的安全和治理模型

CDP 可以在各种设置中处理数据,包括 AWS、Azure 和 GCP 等公共云。

此外,它可以自动向上和向下扩展工作负载和资源,以提高性能并降低成本。


CDP 公有云服务

以下是构成 CDP 公共云的主要元素:

数据工程(Data Engineering)

CDP 数据工程是一个多合一的数据工程工具包。

它基于 Apache Spark 构建,允许通过使用 Apache Airflow 实现编排和自动化来简化跨企业分析团队的 ETL 流程,并提供高度开发的管道监控、可视化调试和广泛的管理工具。

它具有隔离的工作负载环境,并且是容器化、可扩展且易于传输的。

数据中心(Data Hub)

CDP 数据中心是一项服务,可实现从边缘到人工智能的高价值分析。

流式传输、ETL、数据集市、数据库和机器学习只是广泛的分析工作负载中涵盖的一些任务。

数据仓库(Data Warehouse)

CDP 数据仓库是一项允许 IT 向 BI 分析师提供云原生自助分析体验的服务。

流式传输、数据工程和机器学习 (ML) 分析都完全集成在 CDP 数据仓库中。

它具有一个统一的框架,可以保护和管理私有云、多个公共云或混合云上的所有数据和元数据。

机器学习(Machine Learning)

CDP 机器学习通过使用用于部署、服务和监控模型的本地和综合工具来优化 ML 工作流。

借助扩展的 Cloudera Shared Data Experience (SDX) 模型,它可以调节和自动化模型分类,然后通过数据仓库和运营数据库等 CDP 体验轻松地将结果传输到协作。

数据可视化(Data Visualization)

借助 Cloudera 数据可视化,用户可以在虚拟数据仓库中对数据进行建模,而无需移除或更新底层数据结构或表,并查询大量数据而无需不断加载数据,从而节省时间和金钱。

操作型数据库(Operational Database)

Cloudera 操作型数据库体验是一种托管解决方案,将底层集群实例总结为数据库。

它将根据集群的工作负载使用情况自动扩展,并且能够在相同的基础设施占用空间内提高性能并自动解决运营问题。


CDP 公有云架构

在本节中,我们将介绍 CDP 公共云上提供的所有服务。

这里介绍的组件可以单独使用,也可以作为一个整体使用。

数据中心(Data Hub)

管理控制台:CDP 管理员用来管理环境、用户和服务的服务

数据仓库(Data Warehouse)

  • 数据库目录:托管数据的元数据定义的逻辑集合,以及随之而来的数据上下文
  • 虚拟仓库:相当于集群的计算资源实例

机器学习(Machine Learning)

为机器学习调动工作空间

数据工程(Data Engineering)

  • 环境:包含特定虚拟网络的云提供商帐户的逻辑子集
  • CDE 服务:长期运行的 Kubernetes 集群和管理虚拟集群的服务(CDE 目前仅在 Amazon AWS 上可用)
  • 虚拟集群:具有自己的 CPU 和内存范围的独立自我扩展集群
  • Job:应用程序代码,以及指定的配置和资源
  • 资源:作业所需的一组已定义文件

安全和治理

  • 数据目录(Data Catalog):了解、管理、保护和治理数据资产
  • 工作负载管理器(WorkLoad Manager):提供见解以帮助你更好地了解你发送到由 Cloudera Manager 管理的集群的工作负载。
  • 复制管理器(Replication Manager):将数据从 CDH 集群复制和迁移到 CDP 公共云的服务。其中包括:HDFS 复制,Hive 元数据复制,Hive 外部表复制,表级复制

CDP 私有云

CDP 私有云专为混合云部署而设计,使本地环境能够连接到公共云,同时保持一致、集成的安全和治理。

计算和存储在 CDP 私有云中解耦,使这两者的集群能够独立扩展。

Cloudera 共享数据体验 (SDX) 在 CDP 私有云基础集群上可用,提供统一的安全性、治理以及元数据管理。

CDP 私有云用户可以使用管理控制台快速提供和部署 Cloudera 数据仓库和 Cloudera 机器学习服务,还可以根据需要扩展和扩展它们。


CDP 私有云服务

CDP 公有云的一些组件,例如机器学习和数据仓库,在 CDP 私有云上可用。

此外,它使用了一系列分析引擎,涵盖流、数据工程、数据集市、操作型数据库和数据科学,以支持传统工作负载。


CDP 私有云架构

在本节中,我们将介绍可用于私有云的各种服务和组件。

与公共云产品不同,组件更加灵活,因为用户可以更好地控制集群部署。

在这里插入图片描述


CDP PVC Base

  1. Cloudera Manager(CM)
  2. Hadoop
  • HDFS:处理大型数据集的分布式文件系统
  • Yarn:为分布式系统管理和扩展资源的系统
  1. 存储、数据库
  • Hive:旨在提供数据查询和分析的数据仓库软件
  • HBase:以容错方式存储海量稀疏数据的非关系型分布式数据库
  • Kudu:面向列的分布式数据存储引擎,用于快速分析数据
  • Kafka:流式消息平台
  • Stream Messaging Manager (SMM):在企业 Apache Kafka 环境中提供端到端可见性的操作监控和管理工具。
  • Stream Replication Manager (SRM):企业级的复制解决方案,用于容错、可扩展和健壮的跨集群 Kafka 主题复制
  1. 数据查询
  • Impala:基于 Apache Hadoop 的查询引擎
  • Spark:用于大规模数据处理的统一分析引擎
  1. UI
  • Hue:用于查询数据库和数据仓库并进行协作的 SQL 助手
  • Zeppelin:一个 Web 界面,可轻松分析和格式化通过 Spark 处理的大量数据
  • Data Analytics Studio (DAS):提供诊断工具和巧妙建议的应用程序,以帮助业务分析师通过 Hive 变得更加自给自足和高效
  1. 安全、管理
  • Ranger:提供一个集中式平台,用于以一致的方式在整个 Hadoop 生态系统中定义、管理和管理安全策略
  • Atlas:与 Hadoop 堆栈内外的其他工具和流程交换元数据

CDP PVC Plus

  1. OpenShift:在容器中部署项目
  2. 经验
  • 数据仓库:自包含数据仓库和数据集市的自助系统构建,可自动扩展和缩减以响应不断变化的工作负载需求
  • 机器学习:部署机器学习工作区

Cloudera Data Science Workbench (CDSW)

使数据科学家能够管理自己的分析管道的平台


Cloudera 流管理 (CFM)

  • NiFi:自动化不同系统之间的数据移动

CDP 私有云的好处

  • 灵活性——你的组织的云环境可以定制以满足特定的业务需求。
  • 控制——由于非共享资源,更高级别的控制和隐私。
  • 可扩展性——与本地基础设施相比,私有云通常提供更高的可扩展性。

CM

CM 是一种管理 CDH 集群的端到端的应用

CM 通过对 CDH 集群的各部分提供精细的可视化和控制,建立了企业级部署的标准,增强了操作人员的能力以提升性能、提升服务质量、提高合规性、降低管理成本。

CM 的核心是

Cloudera Manager Server

,它承载了管理员控制台( Admin Console Web Server )和应用逻辑,并负责安装软件、配置、启动、停止服务,以及管理运行有服务的集群。


CM 的特性

自动部署和配置

启动和运行 Hadoop 和 CDH 的最快方式。

无论规模或部署环境如何,自动化向导都可让你快速部署集群,并根据你的系统完成智能默认设置。

在你从测试转移到生产或跨环境使用可移植集群配置模板时确保一致性。

通过集中式界面,你的运营团队可以轻松调整配置和资源;管理广泛的用户角色以实现跨部门的自助访问;甚至为多租户环境管理多个集群。


可定制的监控和报告

通过数百个内置的运行状况检查和警报,你可以根据对你最重要的事项进行配置,从而全面了解你的集群。

你不仅可以监控所有集群中的所有组件(包括 Cloudera Manager 本身),还可以轻松监控作业和查询性能

Cloudera Manager 拥有业界唯一的可定制仪表板,能够为你的环境创建用于历史监控和自定义触发器和阈值的高级图表。


轻松、强大的故障排除

唯一的集中式日志管理聚合所有服务和主机的日志,并使其可搜索以进行简单的故障排除,包括针对你关心的错误的集成自定义警报

历史视图和指标可让你准确了解何时发生的事情,并让你快速查看异常行为。

Cloudera Support 还直接与 Cloudera Manager 集成,以根据你的系统和日志提供主动支持和问题解决。


零停机维护

通过滚动升级和回滚的全面自动化,无需担心系统停机,因此你始终可以轻松获得最新进展。

跨组件的高可用性以及内置的备份和灾难恢复意味着你甚至可以无风险地运行最关键的工作负载。

标签: 大数据 hadoop cdh

本文转载自: https://blog.csdn.net/Shockang/article/details/126045227
版权归原作者 Shockang 所有, 如有侵权,请联系我们删除。

“CDH/CDP 是什么?”的评论:

还没有评论