Hadoop集群部署（单机、伪分布式、完全分布式）

1 安装Hadoop

1.1查看java环境

 java -version

若未安装，请看Ubuntu安装jdk（图文）-CSDN博客

1.2下载

Apache Hadoop

1.3解压

cd ~/Downloads

ll

sudo tar -zxvf hadoop-3.1.3.tar.gz -C /usr/local

1.4重命名

cd /usr/local

ll

sudo mv hadoop-3.1.3 hadoop313

1.5修改环境变量配置

进入配置文件：

sudo vim ~/.bashrc

添加如下配置信息：

export HADOOP_HOME=/usr/local/hadoop313 export PATH=${JAVA_HOME}/bin:$PATH:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin

让配置文件生效：

source ~/.bashrc

1.6验证是否安装成功

hadoop version

出现Hadoop的版本信息就代表安装成功了

2 SSH实现免密远程登录

安装ssh：

sudo apt-get install openssh-server

生成密钥对、授权并修改文件权限

ssh-keygen -t rsa

冒号处按下enter键即可(连续按三次)

授权：

cd ~/.ssh/ 
cat id_rsa.pub >> authorized_keys

修改文件权限：

chmod 600 ./authorized_keys

进行远程登录，发现不用密码，输入exit即可退出远程

3Hadoop部署模式

3.1单机模式

完成上述步骤后便完成了单机模式的部署，可直接验证：

cd /usr/local/hadoop313

mkdir ./input

cp ./etc/hadoop/.xml ./input 
./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-.jar grep ./input ./output 'dfs[a-z.]+'

cat ./output/*

执行成功后如下图，输出了相关信息，且单词 dfsadmin 出现了1次

若重复执行需要先将

./output

删除：

rm -r ./output

3.2伪分布式

3.2.1配置core-site.xml

cd /usr/local/hadoop313/etc/hadoop 
sudo vim core-site.xml

添加以下配置信息：

<configuration>
<property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop313/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://movie:9000</value>
    </property>
</configuration>

hadoop.tmp.dir：Hadoop的临时目录，用于存储临时文件。

fs.defaultFS：HDFS的NameNode地址，用于指定Hadoop文件系统的默认名称节点。

3.2.2配置hdfs-site.xml

sudo vim hdfs-site.xml

添加以下配置信息：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.http-address</name>
        <value>movie:9870</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>movie:50090</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop313/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop313/tmp/dfs/data</value>
    </property>
</configuration>

dfs.replication：设置HDFS中的副本数量，默认为3。

dfs.namenode.http-address：NameNode的HTTP地址，用于客户端与NameNode进行通信。

dfs.namenode.secondary.http-address：Secondary NameNode的HTTP地址，用于在主NameNode发生故障时接管其职责。

dfs.namenode.name.dir：设置NameNode的数据存储目录。

dfs.datanode.name.dir：设置DataNode的数据存储目录。

3.2.3配置hadoop-env.sh文件

sudo vim hadoop-env.sh

添加以下配置信息：

export JAVA_HOME=/usr/local/jdk18

完成以上配置后，执行 NameNode 的格式化:

hdfs namenode -format

启动集群：

start-dfs.sh

验证：jps命令查看，有NameNode、SecondaryNameNode、DataNode三个进程

jps

在web中查看

输入movie：9870

关闭集群：

stop-dfs.sh

3.3完全分布式

集群规划：
主节点（movie）从节点（movie1）HDFS
DataNode

NameNode

SecondaryNameNode
DataNodeYARNNodeManager
ResourceManager

NodeManager

在主节点虚拟机先安装配置好后克隆出另一台（可根据实际情况配置多台从节点虚拟机）

进入/usr/local/hadoop313/etc/hadoop完成下面几个文件的配置：

core-site.xml、hdfs-site.xml、mapred-site.xml、 yarn-site.xml

配置core-site.xml：

<configuration>
<property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop313/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://movie:9000</value>
    </property>
</configuration>

配置hdfs-site.xml：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.http-address</name>
        <value>movie:9870</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>movie:50090</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop313/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop313/tmp/dfs/data</value>
    </property>
</configuration>

配置mapred-site.xml：

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>movie:10020</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>movie:19888</value>
        </property>
</configuration>

配置yarn-site.xml：

<configuration>

<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>movie1</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
</configuration>

工具安装