0


深入理解 Apache Hadoop MapReduce:

作者:禅与计算机程序设计艺术

1.简介

Hadoop MapReduce是一个用于分布式计算的开源系统。它通过把海量的数据集切分成小片段,然后并行处理这些片段,并生成最终结果。Hadoop MapReduce框架由Map和Reduce两个主要的组件组成:Map函数负责将输入数据划分成键值对形式,并且输出一个中间结果;而Reduce则负责从Map产生的中间结果中汇总得到最终结果。整个过程可以简单地看作是流水线,其中Map、Shuffle和Reduce三个阶段依次进行。 Apache Hadoop是目前最流行的开源分布式计算框架之一,其最新版为2.7版本,从Hadoop 1.x到Hadoop 2.x历经了十多年的发展。在这个系列的博文中,我会从整体上介绍Hadoop MapReduce框架及其相关的一些概念和术语,包括Map和Reduce操作,磁盘IO优化,数据压缩等方面,之后会对Hadoop MapReduce实践过程中常用的功能进行详细剖析。最后,会讨论一下该框架的未来发展方向和可能存在的问题。

2.基本概念术语说明

2.1.Hadoop MapReduce框架概述

Hadoop MapReduce框架由Map和Reduce两个主要的组件组成:Map函数负责将输入数据划分成键值对形式,并且输出一个中间结果;而Reduce则负责从Map产生的中间结果中汇总得到最终结果。整个过程可以简单地看作是流水线,其中Map、Shuffle和Reduce三个阶段依次进行。 Hadoop MapReduce框架特点如下:

  1. 分布式计算:Hadoop MapReduce基于分布式文件系统HDFS,可以实现海量数据的分布式处理,即数据被划分为

本文转载自: https://blog.csdn.net/universsky2015/article/details/133191715
版权归原作者 禅与计算机程序设计艺术 所有, 如有侵权,请联系我们删除。

“深入理解 Apache Hadoop MapReduce:”的评论:

还没有评论