hadoop完全分布式搭建

文章目录

集群部署规划

部署前可以先了解下 Hadoop运行模式及目录结构-CSDN博客
服务hadoop102hadoop103hadoop104NameNode√DataNode√√√Secondary NameNode√ResourceManager√NodeManager√√√JobHistoryServer√IPv4192.168.88.102192.168.88.103192.168.88.104NodeObjectmasterworker1worker2

服务器准备

最小化安装 Neokylin7.0 用于搭建 Hadoop 集群-CSDN博客

可以参考上述博客自己创建虚拟机，也可以用阿里云的云服务等。

Mobaxterm 远程登录

Mobaxterm

可以使用

MultiExec

功能开启多执行模式，让三台机器同时执行，如果是自己创建的虚拟机可以在一个机器上配置完集群，再进行完全克隆，之后只需要修改IP和主机名就可以了，可以减少很多不必要的重复操作。

实验前准备

安装软件工具

yum install net-tools
yum installvim

关闭防火墙

systemctl stop firewalld.service
systemctl disable firewalld.service

安装 JDK 和 Hadoop

JDK 下载地址：编程宝库、华为镜像

Hadoop 下载地址：清华镜像源、所有历史版本、官方网址

这里用的是Hadoop3.3.1，如果用Hadoop2.x的遇到问题可以看下搭建部署Hadoop2.x和3.x的区别-CSDN博客

创建软件包目录

创建

software

目录，把 JDK 的 rpm包和 Hadoop 的 tar 包拷贝进去

mkdir software
cd software

在左侧打开 software 文件，直接将软件包拖拽至文件夹下即可

解压软件包

使用 rpm 安装 jdk，默认位置为

/usr/java/default

，方便后面环境变量的配置（有的软件没配置 jdk 就会到这个路径下找）

rpm-ivh jdk-8u221-linux-x64.rpm

查看 Java 版本：

java-version

# outputjava version "1.8.0_221"
Java(TM) SE Runtime Environment (build 1.8.0_221-b11)
Java HotSpot(TM)64-Bit Server VM (build 25.221-b11, mixed mode)

解压hadoop软件包到

/opt/

目录下

tar-zxvf hadoop-3.3.1.tar.gz -C /opt/

配置环境变量

添加 hadoop 环境变量（不建议直接在

/etc/profile

文件内直接添加）

vim /etc/profile.d/hadoop.sh

# 或者（不建议）vim /etc/profile/

添加内容：

exportHADOOP_HOME=/opt/hadoop-3.3.1
exportPATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

在

/etc/profile

文件内有这样一段代码，可见他是遍历整个文件夹下 shell 文件只需要加一个

hadoop.sh

文件，里面配置所需要的属性，不用了之后方便删除。

foriin /etc/profile.d/*.sh /etc/profile.d/sh.local ;doif[-r"$i"];thenif["${-#*i}"!="$-"];then."$i"else."$i">/dev/null
        fifidone

配置完 source 命令执行一下

/etc/profile

文件，让新的环境变量 PATH 生效

source /etc/profile

集群搭建

先创建 HDFS 工作目录和 LOG 目录

创建 HDFS 的 NN 和 DN 工作主目录，创建 Hadoop 的 log 日志文件目录（建议将文件放在/var目录下）

mkdir-p /var/big_data /var/log_hadoop

配置集群

首先，进入

$HADOOP_HOME/etc/hadoop

cd$HADOOP_HOME/etc/hadoop

配置环境

1）为 Hadoop 提供 JAVA 解释器路径信息，主要目的是解决远程访问 hadoop 时候

JAVA_HOME

无法继承的问题，同时将 Hadoop 的日志存储路径修改

/var/log_hadoop

路径下，其默认在

$HADOOP_HOME/etc/hadoop/logs

下，一般情况下建议重新指定路径。

vim hadoop-env.sh

添加内容如下：（找到对应位置，没有就加在最后；命令模式下，输入

:$

回车，光标就会定位到最后一行，按 O 在下一行输入内容）

exportJAVA_HOME=/usr/java/default
exportHADOOP_LOG_DIR=/var/log_hadoop

2）为 Yarn 任务、资源管理器提供 Java 运行环境

vim yarn-env.sh

添加内容如下：

exportJAVA_HOME=/usr/java/default

配置 HDFS 主节点信息、持久化和数据文件的主目录

vim core-site.xml

添加如下内容：

<property><!-- 指定NameNode的地址 --><name>fs.defaultFS</name><value>hdfs://hadoop102:9000</value></property><property><!-- 指定hadoop数据的存储目录 --><name>hadoop.tmp.dir</name><value>/var/big_data</value></property>

配置 HDFS 默认的数据存放策略

vim hdfs-site.xml

添加如下内容：

<property><!-- DataNode存储block的副本量,不大于DataNode的个数--><name>dfs.replication</name><value>3</value></property><property><!-- 2nn web端访问地址--><name>dfs.namenode.secondary.http-address</name><value>hadoop104:9868</value></property><property><!-- 禁用 HDFS ACL（简单权限）--><name>dfs.permissions</name><value>false</value></property>

配置 Mapreduce 任务调度策略

vim mapred-site.xml

添加如下内容：

<property><!-- 指定MapReduce程序运行在Yarn上 --><name>mapreduce.framework.name</name><value>yarn</value></property><property><!-- 历史服务器端地址 --><name>mapreduce.jobhistory.address</name><value>hadoop103:10020</value></property><property><!-- 历史服务器web端地址 --><name>mapreduce.jobhistory.webapp.address</name><value>hadoop103:19888</value></property>

配置 YARN 资源管理角色的信息

vim yarn-site.xml

添加如下内容：

<property><!-- 指定MR走shuffle --><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><!-- 指定ResourceManager的地址--><name>yarn.resourcemanager.hostname</name><value>hadoop102</value></property>

配置 DataNode 节点信息

vim worker

添加如下内容（不要留任何空格）：

hadoop102
hadoop103
hadoop104

配置主机名对应 IP

vim /etc/hosts

添加如下内容：

192.168.88.102  hadoop102
192.168.88.103  hadoop103
192.168.88.104  hadoop104

注意屏蔽或删除上面的

127.0.0.1

的信息

SSH无密登录配置

无密钥配置

1）免密登录原理，如下图所示

2）生成公钥和私钥，注意下面的指令要求3台机器都要执行，

Mobaxterm

可以使用

MultiExec

功能开启多执行模式，让三台机器同时执行。

ssh-keygen -t rsa

然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）

3）将公钥拷贝到要免密登录的目标机器上，各自文件下

ssh-copy-id hadoop102
ssh-copy-id hadoop103
ssh-copy-id hadoop104

.ssh文件夹下（~/.ssh）的文件功能解释

文件名****含义known_hosts记录ssh访问过计算机的公钥(public key)id_rsa生成的私钥id_rsa.pub生成的公钥authorized_keys存放授权过得无密登录服务器公钥

集群启停方式

1）各个模块分开启停（配置ssh是前提）

（1）如果集群是第一次启动，需要在 hadoop102 节点格式化 NameNode

hdfs namenode -format

（2）整体启停 HDFS/YARN

start-dfs.sh
stop-dfs.sh
start-yarn.sh
stop-yarn.sh

或者

$HADOOP_HOME/sbin/start-dfs.sh
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/etc/hadoop/sbin/start-yarn.sh
$HADOOP_HOME/etc/hadoop/sbin/stop-yarn.sh

如果使用的 hadoop 版本为 3.x 应该会出现在下述类型报错，显然是参数没有被定义

Starting namenodes on [hadoop102]
ERROR: Attempting to operate on hdfs namenode as root
ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.
Starting datanodes
ERROR: Attempting to operate on hdfs datanode as root
ERROR: but there is no HDFS_DATANODE_USER defined. Aborting operation.
Starting secondary namenodes [hadoop104]
ERROR: Attempting to operate on hdfs secondarynamenode as root
ERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting operati

下面我们需要在定义这些参数

方法一： 在

/etc/profile.d/hadoop.sh

文件内添加

vim /etc/profile.d/hadoop.sh

内容如下：

exportHDFS_NAMENODE_USER=root
exportHDFS_DATANODE_USER=root
exportHDFS_SECONDARYNAMENODE_USER=root
exportYARN_RESOURCEMANAGER_USER=root
exportYARN_NODEMANAGER_USER=root

方法二： 修改 start-dfs.sh、stop-dfs.sh、start-yarn.sh、stop-yarn.sh 四个文件

修改 HDFS 文件

vim$HADOOP_HOME/sbin/start-dfs.sh
vim$HADOOP_HOME/sbin/stop-dfs.sh

在顶部添加以下参数

#!/usr/bin/env bashHDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

修改 YARN 文件

vim$HADOOP_HOME/sbin/start-yarn.sh
vim$HADOOP_HOME/sbin/stop-yarn.sh

在顶部添加以下参数

YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

2）各个服务组件逐一启动/停止

（1）启停 HDFS 组件

hdfs --daemon start/stop namenode/datanode/secondarynamenode

（2）启停 YARN

yarn--daemon start/stop resourcemanager/nodemanager

（3）启停 JobHistory

mr-jobhistory-daemon.sh start historyserver
mr-jobhistory-daemon.sh stop historyserver

3.x 版本的应该会出现下述警告

WARNING: Use of this script to start the MR JobHistory daemon is deprecated.
WARNING: Attempting to execute replacement "mapred --daemon start" instead.

不想看到的话，可以改为使用下述命令

mapred --daemon start historyserver
mapred --daemon stop historyserver

编写集群常用脚本

集群启停脚本

vim myhadoop.sh

添加内容如下：

#!/bin/bashif[$#-lt1]thenecho"No Args Input..."exit;ficase$1in"start")echo"=========== 启动 hadoop 集群 ==========="echo"----------- 启动 hdfs -----------------"ssh hadoop102 "$HADOOP_HOME/sbin/start-dfs.sh"echo"----------- 启动 yarn -----------------"ssh hadoop102 "$HADOOP_HOME/sbin/start-yarn.sh"echo"----------- 启动 historyserver --------"ssh hadoop103 "$HADOOP_HOME/bin/mapred --daemon start historyserver";;"stop")echo"=========== 关闭 hadoop 集群 ==========="echo"----------- 关闭 historyserver --------"ssh hadoop103 "$HADOOP_HOME/bin/mapred --daemon stop historyserver"echo"----------- 关闭 yarn -----------------"ssh hadoop102 "$HADOOP_HOME/sbin/stop-yarn.sh"echo"----------- 关闭 hdfs -----------------"ssh hadoop102 "$HADOOP_HOME/sbin/stop-dfs.sh";;
*)echo"Input Args Error...";;esac

修改脚本执行权限

chmod777 myhadoop.sh

查看集群所有服务器进程脚本 jpsall

vim jpsall

添加内容如下：

#!/bin/bashforhostin hadoop102 hadoop103 hadoop104
doecho===============$host===============ssh$host jps 
done

修改脚本执行权限

chmod777 jpsall

集群分发脚本 xsync

在

/usr/local/bin

目录下创建 xsync 文件

cd /usr/local/bin
vim xsync

添加内容如下：

#!/bin/bash#1 获取输入参数个数，如果没有参数，直接退出pcount=$#if((pcount==0));thenecho no args;exit;fi#2 获取文件名称p1=$1fname=`basename $p1`echofname=$fname#3 获取上级目录到绝对路径pdir=`cd-P$(dirname $p1);pwd`echopdir=$pdir#4 获取当前用户名称user=`whoami`#5 循环foriin hadoop102 hadoop103 hadoop104
doecho ------------------- $i --------------
 rsync-rvl$pdir/$fname$user@$i:$pdirdone

修改脚本执行权限

chmod777 xsync

脚本使用

1）启停 Hadoop 集群全部模块

./myhadoop.sh start
./myhadoop.sh stop

2）查看 Hadoop 集群所有进程

./jpsall

运行代码可以看到 hdfs，yarm，historyserver 三个模块全部启动

查看三台机器所有进程：

hadoop102：NameNode，DataNode，ResourceManager，NodeManager，Jps

hadoop103：DataNode，NodeManager，JobHistoryServer，Jps

hadoop104：DataNode，SecondaryNameNode，NodeManager，Jps

3）分发文件

退回根目录，准备一个 test.txt 文件，

xsync test.txt

在另外两个服务器的根目录下存在 test.txt 即分发成功。

搭建Hadoop集群过程中常见错误的解决方案-CSDN博客

标签：分布式 hadoop 大数据

本文转载自: https://blog.csdn.net/qq_61828116/article/details/134701018
版权归原作者 撕得失败的标签 所有，如有侵权，请联系我们删除。

hadoop完全分布式搭建

文章目录

集群部署规划

服务器准备

Mobaxterm 远程登录

实验前准备

安装软件工具

关闭防火墙

安装 JDK 和 Hadoop

创建软件包目录

解压软件包

配置环境变量

集群搭建

先创建 HDFS 工作目录和 LOG 目录

配置集群

配置环境

配置 HDFS 主节点信息、持久化和数据文件的主目录

配置 HDFS 默认的数据存放策略

配置 Mapreduce 任务调度策略

配置 YARN 资源管理角色的信息

配置 DataNode 节点信息

配置主机名对应 IP

SSH无密登录配置

无密钥配置

.ssh文件夹下（~/.ssh）的文件功能解释

集群启停方式

编写集群常用脚本

集群启停脚本

查看集群所有服务器进程脚本 jpsall

集群分发脚本 xsync

脚本使用

搭建Hadoop集群过程中常见错误的解决方案-CSDN博客

发表评论

“hadoop完全分布式搭建”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航