0


Hadoop Architecture and Core Components – Introduction

作者:禅与计算机程序设计艺术

1.简介

Hadoop是一个分布式数据处理系统,主要面向批处理和实时分析的数据集上进行计算任务。它由两个主要组件组成,分别是Hadoop Distributed File System(HDFS)和MapReduce。HDFS是一个存储海量文件数据的分布式文件系统,用于支持大规模并行计算;而MapReduce是一个编程模型和运行框架,用于对海量的数据进行分治处理,并最终输出结果。两者合起来可以实现存储和处理海量数据的能力。因此,Hadoop架构就是把HDFS和MapReduce整合到一起,形成一个完整的平台,提供高效、可靠、可扩展的计算能力。 本篇文章将从Hadoop架构以及HDFS、YARN等核心组件的功能、作用、原理、工作流程、用法等方面进行介绍,帮助读者更好地理解Hadoop及其组件的特性和运作原理。

2.基本概念术语说明

2.1 Hadoop相关术语

  • HDFS(Hadoop Distributed File System): HDFS是一个分布式文件系统,用于存储和处理大数据量。HDFS通过将文件存储在不同的服务器上,提高了存储容量、处理能力和扩展性。HDFS中的每个节点都存储整个文件系统的一部分,并且能够同时服务多个客户端请求。HDFS的功能主要包括文件的存储、文件的切片、文件的复制、文件的权限管理、集群的容错恢复等。
  • MapReduce: MapReduce是一个编程模型和运行框架,用于对海量的数据进行分治处理,并最终输出结果。MapReduce模型将任务分成多个阶段,包括map阶段和reduce阶段,并采用容错机制保证任务的正确执行。MapReduce工作流程包括ÿ

本文转载自: https://blog.csdn.net/universsky2015/article/details/132664122
版权归原作者 禅与计算机程序设计艺术 所有, 如有侵权,请联系我们删除。

“Hadoop Architecture and Core Components – Introduction”的评论:

还没有评论