hadoop-hdfs配置 + HA(高可用)配置(学习)

这里写目录标题

1、准备三台虚拟机

  node1        192.168.72.88
  node2        192.168.72.89
  node3        192.168.72.90

2、安装JDK

下载jdk安装包

2.1 上传需要的压缩包文件

在这里插入图片描述

2.2 解压压缩包

# 把压缩包解压到上一级目录的soft目录下
tar -zxvf jdk-8u361-linux-x64.tar.gz -C ../soft/                
# 给解压后的目录重新命名-方便
mv jdk1.8.0_361/ jdk18                # mv 命令指定目录为移动,不指定为更改名称
# 配置jdk环境变量使其在任意目录下都可以使用jdkhome/bin中的命令
vim ~/.bashrc
# 增加如下内容,(查看jdk所在路劲可以使用 pwd命令)
export JAVA_HOME=jdk所在目录
export PATH=$JAVA_HOME/bin:$PATH

# 修改文件后,生效配置文件
source ~/.bashrc
# 查看PATH变量是否具有jdk目录,也可直接输入java/javac等jdk中的命令验证
echo $PATH

在这里插入图片描述

3、解压安装hadoop-配置HDFS

hadoop安装包下载

3.1 解压hadoop配置环境变量

# 同样解压和配置环境变量
tar -zxvf hadoop-3.3.6.tar.gz -C ../soft/
mv hadoop-3.3.6/ hadoop336                # 需要进入到soft目录中,或者写全路劲
vim ~/.bashrc
# 添加如下内容
export     HADOOP_HOME=hadoop所在目录
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

# 配置完成后需要使配置文件生效
source ~/.bashrc
echo $PATH                # 查看path变量是否配置完成

3.2 编写配置文件

需要编写hadoop目录下的配置文件配置文件在hadoop安装目录下面的etc/hadoop/下
workers 配置datanode所在主机
hadoop-env.sh 配置hadoop的相关环境
core-site.xml hadoop的核心配置文件
hdfs-site.xml hdfs的核心配置文件

3.2.1 配置workers 文件

vim workers                    # 需要确保在hadoop安装目录下的etc/hadoop目录中
# 添加节点名称
node1                            # 填写主机名需要再系统配置文件中/etc/hosts中配置ip映射
node2
node3

3.2.2 配置hadoop-env.sh

在配置文件中需要指定:
JAVA_HOME,
HADOOP_LOG_DIR,
HADOOP_CONF_DIR

vim hadoop-env.sh
export JAVA_HOME=jdk目录路劲
export HADOOP_LOG_DIR=hadoop日志存放路劲        
export HADOOP_CONF_DIR=hadoop配置文件路劲hadoop安装目录下的etc/hadoop中

3.2.3 配置core-site.xml

<configuration><property><!--namenode所在节点,集群启动会读取该文件确定namenode节点位置--><name>fs.defaultFS </name><value>hdfs://node1:8020</value></property><property><!--表示io操作文件缓冲区大小--><name>io.file.buffer.size</name><value>131072</value></property><!--hdfs副本的数量默认为3可以不用配置--><name>dfs.replication</name><value>3</value></property></configuration>

3.2.4 配置hdfs-site.xml

<configuration><property><name>dfs.datanode.data.dir.perm </name><!--hdfs文件系统,默认创建的文件权限设置--><value>700</value><!--即(rwx)--></property><property><name>dfs.namenode.name.dir</name><!--namenode元数据存储位置--><value> /home/kk/data/namenode </value><!--在node1节点的目录下(不会自动创建需要创建目录)--></property><property><name>dfs.namenode.hosts</name><!--namenode允许在那几个节点的datanode连接--><value>node1,node2,node3</value><!--这三台服务器被授权--></property><property><name>dfs.blocksize</name><!--hdfs默认块大小--><value>268435456</value><!--268435456(256MB)--></property><property><name>dfs.namenode.handler.count</name><!--namenode处理的并发线程数--><value>100</value><!--以一百个并行度处理文件系统的管理事务(自定义)--></property><property><name>dfs.datanode.data.dir</name><!--从节点datanode数据存储目录--><value> /home/kk/data/datanode </value><!--datanode数据存放在node1,node2,node3,三台机器的目录内,目录需要自己创建--></property></configuration>

3.2.5 通过远程复制命令将hadoop jdk 分别赋值到node2和node3上

# 把环境变量配置文件复制到其他节点上,
# 复制需要注意当前所在路劲,和其他节点是否存在前置路劲,不存在需要创建
scp -r ~/.bashrc node2:~/.bashrc        # 配置文件需要到节点中source让其生效
scp -r ~/.bashrc node3:~/.bashrc
scp -r jdk18 node2:`pwd`
scp -r jdk18 node3:`pwd`
scp -r hadoop336 node2:`pwd`
scp -r hadoop336 node2:`pwd`

3.2.6 格式化文件系统

hadoop namenode -format

格式化成功会出现namenode has been successfully formatted.字样

3.2.7 启动hdfs集群

# 启动或关闭hdfs集群
start-dfs.sh
stop-dfs.sh
# 查看系统中正在启动的java进程
jps

成功会出现namenode,datanode,secondarynamenode

3.2.8 web网页端口访问

在浏览器中打开namenode所在id: 192.168.72.88:9870
注意需要关闭防火墙: systemctl stop firewalld 在这里插入图片描述

4、高可用集群搭建 - HA

4.1 安装zookeeper

下载zookeeper安装包

将下载的zookeeper安装包上传到linux中
在这里插入图片描述

4.1.1 解压zookeeper

tar -zxvf apache-zookeeper-3.7.0-bin.tar.gz -C ../soft
# 进入到解压目录中,给目录重命名
mv apache-zookeeper-3.7.0-bin zookeeper370

4.1.2 配置环境变量

vim ~/.bashrc

# 添加如下内容
export ZOOKEEPER_HOME=zookeeper所在目录
export PATH=$ZOOKEEPER_HOME/bin:$PATH

4.1.3 配置zookeeper

复制安装目录下的conf目录下的zoo_sample.cfg文件为zoo.cfg

cp zoo_sample.cfg zoo.cfg

配置zoo.cfg文件

vim zoo.cfg

# 添加如下内容
tickTime=2000
initLimit=10
syncLimit=5
dataDir=/home/kk/export/soft/zookeeper370/data
# 客户端连接端口
clientPort=2181
server.1=192.168.72.88:2888:3888
server.2=192.168.72.89:2888:3888
server.3=192.168.72.90:2888:3888

进入上面配置的dataDir选项的目录中创建myid文件,并配置编号

vim myid
# 把编号写入即可这里为 1

在这里插入图片描述

4.1.4 启动zookeeper查看服务

zkServer.sh start          # 启动服务
zkServer.sh status         # 查看服务
zkServer.sh stop            # 关闭服务
jps                                # 查看进程

在这里插入图片描述

4.1.4 复制到node2和node3中

进入到安装目录中 - 这里为soft

rcp -r zookeeper370 node2:`pwd`
rcp -r zookeeper370 node3:`pwd`

到node2和node3中分别添加环境变量和修改zookeeper编号myid文件内分别为2和3
在node2和node3中分别测试:

zkServer.sh start  
zkServer.sh status

4.1.5 编写shell文件一件启动所有服务和关闭所有服务

需要先实现ssh免密登录

创建一个shell目录 – 这里操作多在node1中,所以只在node1中创建

mkdir ~/shell
cd ~/shell
# 创建两个文件
touch start-zookeeper.sh
touch stop-zookeeper.sh
# 编写两个sh文件
vim start-zookeeper.sh
vim start-zookeeper.sh

内容分别为:
start-zookeeper.sh:

#zkStart.sh
#!/bin/bash
#启动
for host in node11 node22 node33
do
        echo "===========$host start==============="
        ssh  $host 'source /home/kk/.bashrc; zkServer.sh start'
done
sleep 1s
#状态
for host in node11 node22 node33
do
        echo "===========>  $host status <==============="
        ssh  $host 'source zkServer.sh status'
done

stop-zookeeper.sh:

#!/bin/bash
for host in node11 node22 node33
do
        echo "===========start zk cluster :$host start==============="
        ssh  $host 'source /home/kk/.bashrc; zkServer.sh stop'
done

4.1.6 运行编写的shell文件

sh ./start-zookeeper.sh

在这里插入图片描述

sh ./stop-zookeeper.sh

在这里插入图片描述

4.2 配置hdfs高可用

进入到hadoop配置文件中

4.2.1 在core-site.xml中新增

vim core-site.xml
# 新增如下配置
<!--指定zookeeper地址-->
 <property>
         <name>ha.zookeeper.quorum</name>
         <value>node11:2181,node22:2181,node33:2181</value>
</property>
#修改内容
<!-- 高可用模式配置,这里的xjycluster为自定义名称,需要和hdfs-site.xml中配置的值保持一致-->
<property>
        <name>fs.defaultFS</name>
        <value>hdfs://xjycluster</value>
</property>

4.2.2 在hdfs-site.xml中新增

vim hdfs-site.xml
#  新增如下

<!--指定namenode集群名称-->
<property>
        <name>dfs.nameservices</name>
        <value>xjycluster</value>
</property>
<!--确定那几台为namenode节点-->
<property>
        <name>dfs.ha.namenodes.xjycluster</name>
        <value>nn1,nn2</value>
</property>
<!--指定两个namenode节点的通信地址-->
<property>
        <name>dfs.namenode.rpc-address.xjycluster.nn1</name>
        <value>node11:8020</value>
</property>
<property>
        <name>dfs.namenode.rpc-address.xjycluster.nn2</name>
        <value>node22:8020</value>
</property>
<!--配置namenode在web端浏览的地址-->
<property>
        <name>dfs.namenode.http-address.xjycluster.nn1</name>
        <value>node11:9870</value>
</property>
<property>
        <name>dfs.namenode.http-address.xjycluster.nn2</name>
        <value>node22:9870</value>
</property>
<!--指定journalnode存储地址-->
<property>
        <name>dfs.journalnode.edits.dir</name>
        <value>/home/kk/data/journalnode</value>
</property>
<!--指定namenode失败后自动切换的主类-->
<property>
        <name>dfs.client.failover.proxy.provider.xjycluster</name>
        <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>

<!-- 指定namenode元数据在journalnode上的存放位置，journalnode用于同步主备namenode之间的edits文件 -->
<property>
        <name>dfs.namenode.shared.edits.dir</name>
        <value>qjournal://node11:8485;node22:8485;node33:8485/xjycluster</value>
</property>
<!-- 启用namenode故障自动转移 -->
<property>
        <name>dfs.ha.automatic-failover.enabled</name>
        <value>true</value>
</property>
<!-- 配置隔离机制，即同一时刻只能有一台服务器对外响应 -->
<property>
        <name>dfs.ha.fencing.methods</name>
        <value>sshfence</value>
</property>
<!-- 使用隔离机制时需要ssh秘钥登陆 -->
<property>
        <name>dfs.ha.fencing.ssh.private-key-files</name>
    <value>/home/kk/.ssh/id_rsa</value>
</property>

4.2.3 在hadoop-env.sh中新增

vim hadoop-env.sh
# 新增如下内容,kk用户名
export HDFS_JOURNALNODE_USER=kk
export HDFS_ZKFC_USER=kk

4.2.4 分发配置

scp -r hadoop-env.sh hdfs-site.xml core-site.xml node22:`pwd`
scp -r hadoop-env.sh hdfs-site.xml core-site.xml node33:`pwd`

4.2.5 初始化启动

启动三台机器上的journalnode

hdfs --daemon start journalnode
# 这里使用远程命令,也可到每台机器上单独执行
ssh node22 hdfs --daemon start journalnode
ssh node33 hdfs --daemon start journalnode
# jps查看会出现journalnode进程

重新格式化namenode:

# 在node11上格式化namenode节点
hdfs namenode -format

# 格式化后启动namenode节点,在node22中同步执行namenode同步-一定需要先启动node11中的namenode否则无法与node11通讯
hdfs --daemon start namenode        # 单独启动namenode节点命令
hdfs namenode -bootstrapStandby

# 同步之后停止node11上namenode
hdfs --daemon stop namenode 

# 初始化在zookeeper中的状态
hdfs  zkfc -formatZK

启动hdfs集群:

# 需要保证zookeeper集群启动
start-dfs.sh

查看每个节点上的进程:
node11和node22中都有namenode节点
在这里插入图片描述

4.2.5 查看状态

# 查看所有节点信息
hdfs haadmin -getAllServiceState

# 查看nn1是否为active
hdfs haadmin -getServiceState nn1

active在nn2(node22)上:
在这里插入图片描述
制造node22宕机:

# 杀死node22的namenode进程
skill 进程号

在这里插入图片描述
active已经自动转换到了nn1上:

标签： hadoop hdfs 学习

本文转载自: https://blog.csdn.net/m0_65385133/article/details/136751316
版权归原作者 夜深人静学算法 所有，如有侵权，请联系我们删除。

hadoop-hdfs配置 + HA(高可用)配置(学习)

这里写目录标题

1、准备三台虚拟机

2、安装JDK

2.1 上传需要的压缩包文件

2.2 解压压缩包

3、解压安装hadoop-配置HDFS

3.1 解压hadoop配置环境变量

3.2 编写配置文件

3.2.1 配置workers 文件

3.2.2 配置hadoop-env.sh

3.2.3 配置core-site.xml

3.2.4 配置hdfs-site.xml

3.2.5 通过远程复制命令将hadoop jdk 分别赋值到node2和node3上

3.2.6 格式化文件系统

3.2.7 启动hdfs集群

3.2.8 web网页端口访问

4、高可用集群搭建 - HA

4.1 安装zookeeper

4.1.1 解压zookeeper

4.1.2 配置环境变量

4.1.3 配置zookeeper

4.1.4 启动zookeeper查看服务

4.1.4 复制到node2和node3中

4.1.5 编写shell文件一件启动所有服务和关闭所有服务

4.1.6 运行编写的shell文件

4.2 配置hdfs高可用

4.2.1 在core-site.xml中新增

4.2.2 在hdfs-site.xml中新增

4.2.3 在hadoop-env.sh中新增

4.2.4 分发配置

4.2.5 初始化启动

4.2.5 查看状态

发表评论

“hadoop-hdfs配置 + HA(高可用)配置(学习)”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航