【Hadoop|MapReduce篇】MapReduce概述

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。

MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。

它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的机器上运行，也就是说你写一个分布式程序，跟写一个简单的串行程序是一模一样的。

可以动态增加服务器，解决计算资源不够的问题。

任何一台机器挂掉，可以将任务转移到其他节点。

几千台服务器共同计算。

一个完整的MapReduce程序在分布式运行时有三类实例进程。

Mapper阶段的输入数据是<偏移量，String的序列类型>

输出数据是<String的序列类型，Int的序列类型>

Reducer阶段的输入数据是<String的序列类型，集合类型>

输出数据是<String的序列类型，Int的序列类型>

相当于YARN集群的客户端，用于提交我们整个程序到YARN集群，提交的是封装了MapReduce程序相关运行参数的job对象。

标签： hadoop mapreduce 大数据

本文转载自: https://blog.csdn.net/2301_80912559/article/details/142001060
版权归原作者 Vez'nan的幸福生活 所有，如有侵权，请联系我们删除。