0


云上大数据

一.大数据的特征

海量性(Volume):大数据量级非常庞大,传统的数据处理工具无法有效处理这么大规模的数据。

多样性(Variety):大数据来自多种来源,包括结构化数据(如数据库中的数据)、半结构化数据(如 XML、JSON 格式的数据)和非结构化数据(如文本、图像、音频、视频等)。

高速性(Velocity):大数据以快速的速度生成和积累,需要实时或近实时处理以获取有用信息。

真实性(Veracity):大数据可能包含噪声、错误或不准确的信息,因此在处理和分析大数据时需要考虑数据的准确性和可信度。

价值密度(Value):大数据中包含着巨大的信息价值,通过合理的分析和挖掘可以带来更多商业价值和洞见。

复杂性(Complexity):大数据具有较高的复杂性,包括数据的来源多样、数据关联复杂、处理技术复杂等特点,需要使用先进的技术和方法来处理。

综上所述,大数据具有海量、多样、高速、真实、价值密度高和复杂性等特征。

二.结构化数据 非结构并且举例

结构化数据是指可以按照固定模式进行组织和存储的数据,通常以表格形式呈现,并且具有明确定义的数据模式。常见的结构化数据包括关系型数据库中的表格数据,如员工信息、订单数据等。这类数据易于存储、管理和分析。

非结构化数据则是指没有固定格式或组织形式的数据,不适合存储在传统的关系型数据库中。这种数据形式多种多样,包括文本文件、图像、音频、视频等。非结构化数据需要特殊的技术和工具来进行处理和分析。

举例来说:

结构化数据:一个关系型数据库中的客户订单表格,包含订单号、客户姓名、产品名称、数量和价格等字段的数据,是一种典型的结构化数据。

非结构化数据:社交媒体上的用户评论、推文和帖子内容,这些数据通常包含文本、图片、视频等多种形式,难以用传统的表格方式进行组织和存储,因此属于非结构化数据。

三.Hadoop生态圈

Hadoop 生态圈是由一系列与 Apache Hadoop 相关的开源项目和工具组成的生态系统。这些项目提供了各种功能,包括数据存储、数据处理、数据分析等,以帮助用户更有效地管理和分析大数据。

一些主要的组件和项目包括:

Hadoop Distributed File System (HDFS):Hadoop 分布式文件系统,用于存储大数据文件,并实现数据的高可靠性和高容量存储。

MapReduce:Hadoop 中用于并行处理大规模数据集的编程模型和框架,可以将任务分解为 Map 和 Reduce 阶段进行处理。

YARN:资源管理器,负责集群资源的调度和管理,允许多个数据处理应用程序共享集群资源。

Apache Hive:基于 Hadoop 的数据仓库工具,提供类似于 SQL 的查询语言 HiveQL,用于在 Hadoop 上进行数据分析和查询。

Apache Pig:用于并行计算的数据流语言和执行框架,适合用于大规模数据处理和分析。

Apache Spark:快速通用的集群计算系统,提供了比 MapReduce 更快的数据处理能力,支持内存计算和多种数据处理模式。

Apache HBase:分布式 NoSQL 数据库,提供实时读写访问大规模表数据的能力。

Apache Kafka:分布式流处理平台,用于处理实时数据流,支持高吞吐量的数据传输和处理。

Apache Storm:实时数据处理框架,支持高可靠性的流式数据处理应用程序。

Apache Sqoop:用于在 Hadoop 与关系型数据库之间进行数据传输的工具。

这些项目共同构成了丰富多样的 Hadoop 生态圈,为用户提供了全面的大数据处理和分析解决方案。

四.Hadoop hdfs架构

Hadoop 的分布式文件系统(Hadoop Distributed File System,HDFS)是 Hadoop 生态系统的核心组件之一,用于存储大规模数据并提供高容错性和高可靠性。以下是 HDFS 的架构概述:

NameNode:

NameNode 是 HDFS 的主节点,负责管理文件系统的命名空间、控制文件系统的访问和维护文件元数据信息。

NameNode 会持久化存储文件系统的元数据信息,包括文件和目录的命名空间、权限、块列表等。

NameNode 不存储实际的数据块内容,只存储数据块的元数据信息。

DataNode:

DataNode 是 HDFS 的从节点,负责存储实际的数据块,并响应来自 NameNode 和客户端的指令。

DataNode 负责执行数据块的创建、删除和复制等操作,并定期向 NameNode 发送心跳信号汇报自身状态。

DataNode 存储数据块的副本,以提供容错性和高可靠性。

Block:

HDFS 将每个文件分割为固定大小的数据块(默认大小为128 MB),并将这些数据块分布存储在不同的 DataNode 上。

数据块的复制策略由 HDFS 的副本管理器(Replication Manager)负责管理,确保数据的可靠性和容错性。

Client:

客户端通过 HDFS 提供的 Java API 或命令行工具与 HDFS 进行交互,可以读取、写入和删除文件等操作。

客户端在与 NameNode 进行交互时获取文件元数据信息,然后直接与 DataNode 通信进行数据的读写操作。

总体来说,HDFS 的架构采用主从架构,通过 NameNode 管理文件系统的命名空间和元数据信息,而 DataNode 负责存储实际的数据块内容。这种设计使得 HDFS 具有高扩展性、高容错性和高可靠性,适合用于存储和管理大规模数

五.Hdfs读的流程

Hadoop 生态圈是由一系列与 Apache Hadoop 相关的开源项目和工具组成的生态系统。这些项目提供了各种功能,包括数据存储、数据处理、数据分析等,以帮助用户更有效地管理和分析大数据。

一些主要的组件和项目包括:

Hadoop Distributed File System (HDFS):Hadoop 分布式文件系统,用于存储大数据文件,并实现数据的高可靠性和高容量存储。

MapReduce:Hadoop 中用于并行处理大规模数据集的编程模型和框架,可以将任务分解为 Map 和 Reduce 阶段进行处理。

YARN:资源管理器,负责集群资源的调度和管理,允许多个数据处理应用程序共享集群资源。

Apache Hive:基于 Hadoop 的数据仓库工具,提供类似于 SQL 的查询语言 HiveQL,用于在 Hadoop 上进行数据分析和查询。

Apache Pig:用于并行计算的数据流语言和执行框架,适合用于大规模数据处理和分析。

Apache Spark:快速通用的集群计算系统,提供了比 MapReduce 更快的数据处理能力,支持内存计算和多种数据处理模式。

Apache HBase:分布式 NoSQL 数据库,提供实时读写访问大规模表数据的能力。

Apache Kafka:分布式流处理平台,用于处理实时数据流,支持高吞吐量的数据传输和处理。

Apache Storm:实时数据处理框架,支持高可靠性的流式数据处理应用程序。

Apache Sqoop:用于在 Hadoop 与关系型数据库之间进行数据传输的工具。

这些项目共同构成了丰富多样的 Hadoop 生态圈,为用户提供了全面的大数据处理和分析解决方案。

标签: 大数据

本文转载自: https://blog.csdn.net/2401_83271223/article/details/136558967
版权归原作者 2401_83271223 所有, 如有侵权,请联系我们删除。

“云上大数据”的评论:

还没有评论