古人云:工欲善其事必先利其器!
第一步先将“器”基础平台搭建起来,gogogo!!!
一、Hadoop 平台安装
创建VMware虚拟机(实验环境)
这里需要三台,分别是master、slave1、slave2
按照如下配置
“
”
1.配置Linux系统基础环境(实验过程)
1.1.查看服务器的 IP 地址
(若没有则自行配置)
[root@localhost ~]# ip add show
1.2.设置服务器的主机名称
(余下两台虚拟机也如下方式修改名称)
[root@localhost ~]# hostnamectl set-hostname master
[root@localhost ~]# bash
[root@master ~]# hostname
master
1.3.主机名与 IP 地址
[root@master ~]# vi /etc/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.47.140 master (实际IP为自己主机的IP,这里为举例IP)
1.4.查看 SSH 服务状态
CentOS 7 默认安装 SSH 服务,可以使用如下命令查看 SSH 的状态。
[root@master ~]# systemctl status sshd
1.5.关闭防火墙
[root@master ~]# systemctl stop firewalld
关闭防火墙后要查看防火墙的状态,确认一下。
[root@master ~]# systemctl status firewalld
看到 inactive (dead)就表示防火墙已经关闭。不过这样设置后,Linux 系统如 果重启,防火墙仍然会重新启动。执行如下命令可以永久关闭防火墙。
[root@master ~]# systemctl disable firewalld
1.6.创建 hadoop 用户
[root@master ~]# useradd hadoop
[root@master ~]# echo "1" |passwd --stdin hadoop
更改用户 hadoop 的密码 。
passwd:所有的身份验证令牌已经成功更新。
2.安装 JAVA 环境
2.1.下载 JDK 安装包
JDK 安 装 包 需 要 在 Oracle 官 网 下 载 , 下 载 地 址 为 : 20 https://www.oracle.com/java /technologies /javase-jdk8-downloads.html,本教材采用 的 Hadoop 2.7.1 所需要的 JDK 版本为 JDK7 以上,这里采用的安装包为 jdk-8u152-linux-x64.tar.gz。
2.2.卸载自带 OpenJDK
(先查看后全部卸载)
键入命令
[root@master ~]# rpm -qa | grep java
卸载相关服务,键入命令
[root@master ~]# rpm -e --nodeps (后面接前一个命令查询的Java全称,一个个的删)
[root@master ~]# rpm -qa | grep java
查看删除结果再次键入命令 java -version 出现以下结果表示删除功
[root@master ~]# java -version
bash: java: 未找到命令
2.3.安装 JDK
Hadoop 2.7.1 要求 JDK 的版本为 1.7 以上,这里安装的是 JDK1.8 版 (即JAVA 8)。 安装命令如下,将安装包解压到/usr/local/src 目录下 ,注意/opt/software目录 下的软件包事先准备好。
[root@master ~]# tar -zxvf /opt/software/jdk-8u152-linux-x64.tar.gz -C /usr/local/src/ [root@master ~]# ls /usr/local/src/
jdk1.8.0_152
2.4.设置 JAVA 环境变量
在 Linux 中设置环境变量的方法比较多,较常见的有两种:一是配置 /etc/profile 文件,配置结果对整个系统有效,系统所有用户都可以使用;二 21 是配置~/.bashrc 文件,配置结果仅对当前用户有效。这里使用第一种方法。
[root@master ~]# vi /etc/profile
在文件的最后增加如下两行:
export JAVA_HOME=/usr/local/src/jdk1.8.0_152
export PATH=$PATH:$JAVA_HOME/bin
执行 source 使设置生效:
[root@master ~]# source /etc/profile
检查 JAVA 是否可用。
[root@master ~]# echo $JAVA_HOME
/usr/local/src/jdk1.8.0_152
[root@master ~]# java -version
java version "1.8.0_152" Java(TM) SE Runtime Environment (build 1.8.0_152-b16)
Java HotSpot(TM) 64-Bit Server VM (build 25.152-b16, mixed mode)
能够正常显示 Java 版本则说明 JDK 安装并配置成功。
二、安装 Hadoop 软件
2.安装 Hadoop 软件
2.1.安装命令如下,将安装包解压到/usr/local/src/目录下
[root@master ~]# tar -zxvf /opt/software/hadoop-2.7.1.tar.gz -C /usr/local/src/
[root@master ~]# ll /usr/local/src/
总用量 0
drwxr-xr-x. 9 10021 10021 149 6月 29 2015 hadoop-2.7.1
drwxr-xr-x. 8 10 143 255 9月 14 2017 jdk1.8.0_152
查看 Hadoop 目录,得知 Hadoop 目录内容如下:
[root@master ~]# ll /usr/local/src/hadoop-2.7.1/
总用量 28
2.2.配置 Hadoop 环境变量
和设置 JAVA 环境变量类似,修改/etc/profile 文件。
[root@master ~]# vi /etc/profile
在文件的最后增加如下两行:
export HADOOP_HOME=/usr/local/src/hadoop-2.7.1 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
执行 source 使用设置生效:
[root@master ~]# source /etc/profile
检查设置是否生效:
[root@master ~]# hadoop
[root@master ~]# 出现上述 Hadoop 帮助信息就说明 Hadoop 已经安装好了。
2.3.修改目录所有者和所有者组
上述安装完成的 Hadoop 软件只能让 root 用户使用,要让 hadoop 用户能够 运行 Hadoop 软件,需要将目录/usr/local/src 的所有者改为 hadoop 用户。
[root@master ~]# chown -R hadoop:hadoop /usr/local/src/
[root@master ~]# ll /usr/local/src/
总用量 0
drwxr-xr-x. 9 hadoop hadoop 149 6月 29 2015 hadoop-2.7.1
drwxr-xr-x. 8 hadoop hadoop 255 9月 14 2017 jdk1.8.0_152
/usr/local/src 目录的所有者已经改为 hadoop 了。
三、安装单机版 Hadoop 系统
3.1.配置 Hadoop 配置文件
[root@master ~]# cd /usr/local/src/hadoop-2.7.1/
[root@master hadoop-2.7.1]# ls
bin etc include lib libexec LICENSE.txt NOTICE.txt README.txt sbin share
[root@master hadoop-2.7.1]# vi etc/hadoop/hadoop-env.sh
在文件中查找 export JAVA_HOME 这行,将其改为如下所示内容:
export JAVA_HOME=/usr/local/src/jdk1.8.0_152
这样就设置好 Hadoop 的本地模式,下面使用官方案例来测试 Hadoop 是否运行正 常。
3.2.测试 Hadoop 本地模式的运行
3.2.1.切换到 hadoop 用户
使用 hadoop 这个用户来运行 Hadoop 软件。
[root@master hadoop-2.7.1]# su - hadoop
[hadoop@master ~]$ id uid=1001(hadoop) gid=1001(hadoop) 组=1001(hadoop)
环境 =unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 3.4.2.2.
3.2.2.创建输入数据存放目录
将输入数据存放在~/input 目录(hadoop 用户主目录下的 input 目录中)。
[hadoop@master ~]$ mkdir ~/input
[hadoop@master ~]$ ls Input 3.4.2.3.
3.2.3.创建数据输入文件
创建数据文件 data.txt,将要测试的数据内容输入到 data.txt 文件中。
[hadoop@master ~]$ vi input/data.txt
输入如下内容,保存退出。
Hello World
Hello Hadoop
Hello Husan
3.2.4. 测试 MapReduce 运行
运行 WordCount 官方案例,统计 data.txt 文件中单词的出现频度。这个案例可 以用来统计年度十大热销产品、年度风云人物、年度最热名词等。命令如下:(注意空格)
[hadoop@master ~]$ hadoop jar /usr/local/src/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount ~/input/data.txt ~/output
运行结果保存在~/output 目录中(注:结果输出目录不能事先存在),命令执 行后查看结果: [hadoop@master ~]$ ll output/
总用量 4
-rw-r--r--. 1 hadoop hadoop 33 11月 10 23:50 part-r-00000
-rw-r--r--. 1 hadoop hadoop 0 11月 10 23:50 _SUCCESS
文件_SUCCESS 表示处理成功,处理的结果存放在 part-r-00000 文件中,查看该 文件。 [hadoop@master ~]$ cat output/part-r-00000
Hadoop1
Hello 3
Husan 1
World 1
可以看出统计结果正确,说明 Hadoop 本地模式运行正常。
四、Hadoop平台环境配置
4.1.实验环境下集群网络配置
4.1.1.修改主机名
修改 slave1 机器主机名
[root@localhost ~]# hostnamectl set-hostname slave1
[root@localhost ~]# bash
[root@slave1 ~]#
修改 slave2 机器主机名
[root@localhost ~]# hostnamectl set-hostname slave2
[root@localhost ~]# bash
[root@slave2 ~]#
eg:根据实验环境下集群网络 IP 地址规划(根据自己主机的ip即可):
master 设置 IP 地址是“192.168.47.140”,掩码是“255.255.255.0”;
slave1 设置 IP 地址“192.168.47.141”,掩码是“255.255.255.0”;
slave2 设置 IP 地址是“192.168.47.142”,掩码是“255.255.255.0”。
4.1.2.修改主机配置文件“/etc/hosts”
根据我们为 Hadoop 设置的主机名为“master、slave1、slave2”,(这里的地址根据自己实验中实际地址来)映地址是 “192.168.47.140、192.168.47.141、192.168.47.142”,分别修改主机配置文件“/etc/hosts”, 在命令终端输入如下命令:(分别修改mastar、slave1、slave2)
[root@master ~]# vi /etc/hosts | [root@slave1 ~]# vi /etc/hosts | [root@slave1 ~]# vi /etc/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.47.140 master
192.168.47.141 slave1
192.168.47.142 slave2
4.2.SSH 无密码验证配置
生成 SSH 密钥
4.2.1. 每个节点安装和启动 SSH 协议
实现 SSH 登录需要 openssh 和 rsync 两个服务,一般情况下默认已经安装(如没有自行安 装),可以通过下面命令查看结果。
[root@master ~]# rpm -qa | grep openssh
openssh-server-7.4p1-11.el7.x86_64
openssh-7.4p1-11.el7.x86_64
openssh-clients-7.4p1-11.el7.x86_64
[root@master ~]# rpm -qa | grep rsync
rsync-3.1.2-11.el7_9.x86_64
4.2.2.切换到 hadoop 用户
(主节点“master”前面有创建hadoop用户,分节点“slave1、2”分别创建Hadoop用户)
[root@master ~]# su - hadoop
[hadoop@master ~]$
[root@slave1 ~]# useradd hadoop
[root@slave1 ~]# su - hadoop
[hadoop@slave1 ~]$
[root@slave2 ~]# useradd hadoop
[root@slave2 ~]# su - hadoop
[hadoop@slave2 ~]$
咳咳咳,下面重点内容了,仔细看,一不小心就掉坑里了!!!
4.2.3每个节点生成秘钥对
(注意了每个哈,不要看漏掉了)
#在 master 上生成密钥(如下图内容一样即可)
[hadoop@master ~]$ ssh-keygen -t rsa
#slave1 生成密钥
[hadoop@slave1 ~]$ ssh-keygen -t rsa
#slave2 生成密钥
[hadoop@slave2 ~]$ ssh-keygen -t rsa
4.2.4.查看"/home/hadoop/"下是否有".ssh"文件夹
且".ssh"文件下是否有两个刚 生产的无密码密钥对。
[hadoop@master ~]$ ls ~/.ssh/
id_rsa id_rsa.pub
4.2.5.将 id_rsa.pub 追加到授权 key 文件中
(醒醒,这个也是每个节点哈 ,别漏掉了)
#master
[hadoop@master ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
[hadoop@master ~]$ ls ~/.ssh/
authorized_keys id_rsa id_rsa.pub
#slave1
[hadoop@slave1 ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
[hadoop@slave1 ~]$ ls ~/.ssh/
authorized_keys id_rsa id_rsa.pub
#slave2
[hadoop@slave2 ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
[hadoop@slave2 ~]$ ls ~/.ssh/
authorized_keys id_rsa id_rsa.pub
4.2.6.修改文件"authorized_keys"权限
通过 ll 命令查看,可以看到修改后 authorized_keys 文件的权限为“rw-------”,表示所有者 可读写,其他用户没有访问权限。如果该文件权限太大,ssh 服务会拒绝工作,出现无法 通过密钥文件进行登录认证的情况。
#master
[hadoop@master ~]$ chmod 600 ~/.ssh/authorized_keys
[hadoop@master ~]$ ll ~/.ssh/
#slave1
[hadoop@slave1 ~]$ chmod 600 ~/.ssh/authorized_keys
[hadoop@slave1 ~]$ ll ~/.ssh
#slave2
[hadoop@slave2 ~]$ chmod 600 ~/.ssh/authorized_keys
[hadoop@slave2 ~]$ ll ~/.ssh/
写出下图样式,就一样就O了!
4.2.7.配置 SSH 服务(这里也是三个节点都)
使用 root 用户登录,修改 SSH 配置文件"/etc/ssh/sshd_config"的下列内容,需要将该配 置字段前面的#号删除,启用公钥私钥配对认证方式。
#master (slave1、slave2)
[hadoop@master ~]$ su - root
[root@master ~]# vi /etc/ssh/sshd_config
PubkeyAuthentication yes #找到此行,并把#号注释删除。
4.2.8.重启 SSH 服务
设置完后需要重启 SSH 服务,才能使配置生效。
[root@master ~]# systemctl restart sshd
4.2.9.切换到 hadoop 用户
[root@master ~]# su - hadoop
[hadoop@master ~]$
4.2.10.验证 SSH 登录本机
在 hadoop 用户下验证能否嵌套登录本机,若可以不输入密码登录,则本机通过密钥登录 认证成功。
[hadoop@master ~]$ ssh localhost
[hadoop@master ~]$
(首次登录时会提示系统无法确认 host 主机的真实性,只知道它的公钥指纹,询问用户是 否还想继续连接。需要输入“yes”,表示继续登录。第二次再登录同一个主机,则不会再 出现该提示,可以直接进行登录。 读者需要关注是否在登录过程中是否需要输入密码,不需要输入密码才表示通过密钥认 证成功。)
4.2.11交换 SSH 密钥
4.2.11.1.将 Master 节点的公钥 id_rsa.pu复制到每个 Slave 点
hadoop 用户登录,通过 scp 命令实现密钥拷贝。
[hadoop@master ]$ scp ~/.ssh/id_rsa.pub hadoop@slave1:/
[hadoop@master ]$ scp ~/.ssh/id_rsa.pub hadoop@slave2:/
(首次远程连接时系统会询问用户是否要继续连接。需要输入“yes”,表示继续。因为目 前尚未完成密钥认证的配置,所以使用 scp 命令拷贝文件需要输入slave1 节点 hadoop 用户的密码。)
4.2.11.2.在每个 Slave 节点把 Master 节点复制的公钥复制到authorized_keys 文件
hadoop 用户登录 slave1 和 slave2 节点,执行命令。
[hadoop@slave1 ]$ cat ~/id_rsa.pub >>/.ssh/authorized_keys
[hadoop@slave2 ]$ cat ~/id_rsa.pub >>/.ssh/authorized_keys
4.2.11.3.在每个 Slave 节点删除 id_rsa.pub 文件
[hadoop@slave1 ~]$ rm -rf ~/id_rsa.pub
[hadoop@slave2 ~]$ rm -rf ~/id_rsa.pub
4.2.11.4.将每个 Slave 节点的公钥保存到 Master
(注意先后顺序)
将 Slave1 节点的公钥复制到 Master
(1) [hadoop@slave1 ]$ scp ~/.ssh/id_rsa.pub hadoop@master:/
(2)在 Master 节点把从 Slave 节点复制的公钥复制到 authorized_keys 文件
[hadoop@master ]$ cat ~/id_rsa.pub >>/.ssh/authorized_keys
(3)在 Master 节点删除 id_rsa.pub 文件
[hadoop@master ~]$ rm -rf ~/id_rsa.pub
将 Slave2 节点的公钥复制到 Master
(1)[hadoop@slave2 ]$ scp ~/.ssh/id_rsa.pub hadoop@master:/
(2)在 Master 节点把从 Slave 节点复制的公钥复制到 authorized_keys 文件
[hadoop@master ]$ cat ~/id_rsa.pub >>/.ssh/authorized_keys
(3)在 Master 节点删除 id_rsa.pub 文件
[hadoop@master ~]$ rm -rf ~/id_rsa.pub
4.2.12.验证 SSH 无密码登录
(1)查看 Master 节点 authorized_keys 文件
[hadoop@master ~]$ cat ~/.ssh/authorized_keys
(可以看到 Master 节点 authorized_keys 文件中包括 master、slave1、slave2 三个节点 的公钥,如下图)
(2)查看 Slave 节点 authorized_keys 文件
(能看到slave1、2 authorized_keys 文件中包括master、当前slave节点就OK了)
[hadoop@slave1 ~]$ cat ~/.ssh/authorized_keys
[hadoop@slave2 ~]$ cat ~/.ssh/authorized_keys
4.2.13.ssh各节点验证
(1)验证 Master 到每个 Slave 节点无密码登录
hadoop 用户登录 master 节点,执行 SSH 命令登录 slave1 和 slave2 节点。可以观察 到不需要输入密码即可实现 SSH 登录。
[hadoop@master ~]$ ssh slave1
[hadoop@slave1 ~]$
[hadoop@master ~]$ ssh slave2
[hadoop@slave2 ~]$
(2)验证两个 Slave 节点到 Master 节点无密码登录
[hadoop@slave1 ~]$ ssh master
Last login: Mon Nov 14 16:30:45 2022 from ::1
[hadoop@master ~]$
[hadoop@slave2 ~]$ ssh master
Last login: Mon Nov 14 16:50:49 2022 from 192.168.47.141
[hadoop@master ~]$
4.3.配置两个子节点slave1、slave2的JDK环境。
[root@master ~]# cd /usr/local/src/
[root@master src]# ls hadoop-2.7.1 jdk1.8.0_152
[root@master src]# scp -r jdk1.8.0_152 root@slave1:/usr/local/src/
[root@master src]# scp -r jdk1.8.0_152 root@slave2:/usr/local/src/
#slave1 (slave2也一样的操作)
[root@slave1 ~]# ls /usr/local/src/ jdk1.8.0_152
[root@slave1 ~]# vi /etc/profile
#此文件最后添加下面两行
export JAVA_HOME=/usr/local/src/jdk1.8.0_152 37
export PATH=$PATH:$JAVA_HOME/bin
[root@slave1 ~]# source /etc/profile
[root@slave1 ~]# java -version
java version "1.8.0_152" Java(TM) SE Runtime Environment (build 1.8.0_152-b16) Java HotSpot(TM) 64-Bit Server VM (build 25.152-b16, mixed mode)
五、Hadoop集群运行
5.1.Hadoop文件参数配置
5.1.1.在 Master 节点上安装 Hadoop
- 将 hadoop-2.7.1 文件夹重命名为 Hadoop
[root@master ~]# cd /usr/local/src/
[root@master src]# mv hadoop-2.7.1 hadoop
[root@master src]# ls hadoop jdk1.8.0_152
- 配置 Hadoop 环境变量
[root@master src]# yum install -y vim
[root@master src]# vim /etc/profile
[root@master src]# tail -n 4 /etc/profile
export JAVA_HOME=/usr/local/src/jdk1.8.0_152
export PATH=$PATH:$JAVA_HOME/bin
export HADOOP_HOME=/usr/local/src/hadoop export
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
- 使配置的 Hadoop 的环境变量生效
[root@master src]# su - hadoop
上一次登录:一 2 月 28 15:55:37 CST 2022 从 192.168.41.143pts/1 上
[hadoop@master ~]$ source /etc/profile
[hadoop@master ~]$ exit 登出
- 执行以下命令修改 hadoop-env.sh 配置文件
[root@master src]# cd /usr/local/src/hadoop/etc/hadoop/
[root@master hadoop]# vim hadoop-env.sh #修改以下配置
export JAVA_HOME=/usr/local/src/jdk1.8.0_152
5.1.2.配置 hdfs-site.xml 文件参数
[root@master hadoop]# vim hdfs-site.xml
#编辑以下内容
[root@master hadoop]# tail -n 14 hdfs-site.xml
5.1.3.配置 core-site.xml 文件参数
(配置文件中注意修改IP地址“改为实验中自己使用的IP”)
[root@master hadoop]# vim core-site.xml
#编辑以下内容 [root@master hadoop]# tail -n 14 core-site.xml
5.1.4.配置 mapred-site.xml
[root@master hadoop]# pwd /usr/local/src/hadoop/etc/hadoop
[root@master hadoop]# cp mapred-site.xml.template mapred-site.xml
[root@master hadoop]# vim mapred-site.xml #添加以下配置
[root@master hadoop]# tail -n 14 mapred-site.xm
5.1.5.配置 yarn-site.xml
[root@master hadoop]# vim yarn-site.xml
#添加以下配置
[root@master hadoop]# tail -n 32 yarn-site.xml
5.1.6.Hadoop 其他相关配置
- 配置 masters 文件
[root@master hadoop]# vim masters
[root@master hadoop]# cat masters 192.168.47.140
- 配置 slaves 文件 [root@master hadoop]# vim slaves
[root@master hadoop]# cat slaves 192.168.47.141 192.168.47.142
- 新建目录
[root@master hadoop]# mkdir /usr/local/src/hadoop/tmp
[root@master hadoop]# mkdir /usr/local/src/hadoop/dfs/name -p
[root@master hadoop]# mkdir /usr/local/src/hadoop/dfs/data -p
- 修改目录权限
[root@master hadoop]# chown -R hadoop:hadoop /usr/local/src/hadoop/
- 同步配置文件到 Slave 节点
[root@master ~]# scp -r /usr/local/src/hadoop/ root@slave1:/usr/local/src/
The authenticity of host 'slave1 (192.168.47.141)' can't be established. ECDSA key fingerprint is SHA256:vnHclJTJVtDbeULN8jdOLhTCmqxJNqUQshH9g9LfJ3k. ECDSA key fingerprint is MD5:31:03:3d:83:46:aa:c4:d0:c9:fc:5f:f1:cf:2d:fd:e2. Are you sure you want to continue connecting (yes/no)? yes * * * * * * *
[root@master ~]# scp -r /usr/local/src/hadoop/ root@slave2:/usr/local/src/
The authenticity of host 'slave1 (192.168.47.142)' can't be established. ECDSA key fingerprint is SHA256:vnHclJTJVtDbeULN8jdOLhTCmqxJNqUQshH9g9LfJ3k. ECDSA key fingerprint is MD5:31:03:3d:83:46:aa:c4:d0:c9:fc:5f:f1:cf:2d:fd:e2. Are you sure you want to continue connecting (yes/no)? yes * * * * * * *
6、slave1、2节点配置(直接切换到slave2执行一样的命令)
#slave1 配置
[root@slave1 ~]# yum install -y vim
[root@slave1 ~]# vim /etc/profile
[root@slave1 ~]# tail -n 4 /etc/profile
export JAVA_HOME=/usr/local/src/jdk1.8.0_152
export PATH=$PATH:$JAVA_HOME/bin
export HADOOP_HOME=/usr/local/src/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
[root@slave1 ~]# chown -R hadoop:hadoop /usr/local/src/hadoop/
[root@slave1 ~]# su - hadoop
上一次登录:四 2 月 24 11:29:00 CST 2022 从 192.168.41.148pts/1 上
[hadoop@slave1 ~]$ source /etc/profile
5.2.hadoop 集群运行
5.2.1.配置 Hadoop 格式化
. 步骤一:NameNode 格式化
将 NameNode 上的数据清零,第一次启动 HDFS 时要进行格式化,以后启动无 需再格式化,否则会缺失 DataNode 进程。另外,只要运行过 HDFS,Hadoop 的 工作目录(本书设置为/usr/local/src/hadoop/tmp)就会有数据,如果需要重 新格式化,则在格式化之前一定要先删除工作目录下的数据,否则格式化时会 出问题。
执行如下命令,格式化 NameNode
[root@master ~]# su – hadoop
[hadoop@master ~]# cd /usr/local/src/hadoop/
[hadoop@master hadoop]$ bin/hdfs namenode -format
结果:
20/05/02 16:21:50 INFO namenode.NameNode: SHUTDOWN_MSG: /************************************************************ SHUTDOWN_MSG: Shutting down NameNode at master/192.168.1.6 ************************************************************/ 1.4.1.2.
步骤二:启动 NameNode 执行如下命令,启动 NameNode:
[hadoop@master hadoop]$ hadoop-daemon.sh start namenode
starting namenode, logging to /opt/module/hadoop-2.7.1/logs/hadoop-hadoop-namenode-master.out
5.2.2.查看 Java 进程
启动完成后,可以使用 JPS 命令查看是否成功。JPS 命令是 Java 提供的一个显示当前所有 Java 进程 pid 的命令。
[hadoop@master hadoop]$ jps
3557 NameNode
3624 Jps
5.2.2.1.步骤一:slave节点 启动 DataNode
执行如下命令,启动 DataNode:
[hadoop@slave1 hadoop]$ hadoop-daemon.sh start datanode
[hadoop@slave2 hadoop]$ hadoop-daemon.sh start datanode
[hadoop@slave1 hadoop]$ jps
3557 DataNode
3725 Jps
[hadoop@slave2 hadoop]$ jps
3557 DataNode
3725 Jps
5.2.2.2.步骤二:启动 SecondaryNameNode
执行如下命令,启动 SecondaryNameNode:
[hadoop@master hadoop]$ hadoop-daemon.sh start secondarynamenode
starting secondarynamenode, logging to /opt/module/hadoop-2.7.1/logs/hadoop-hadoop-secondarynamenode-master.out
[hadoop@master hadoop]$ jps
34257 NameNode
34449 SecondaryNameNode
34494 Jps
查看到有 NameNode 和 SecondaryNameNode 两个进程,就表明 HDFS 启动成功。
5.2.2.3步骤三:查看 HDFS 数据存放位置:
执行如下命令,查看 Hadoop 工作目录:
[hadoop@master hadoop]$ ll dfs/
总用量 0
drwx------ 3 hadoop hadoop 21 8 月 14 15:26 data
drwxr-xr-x 3 hadoop hadoop 40 8 月 14 14:57 name
[hadoop@master hadoop]$ ll ./tmp/dfs
总用量 0 45 drwxrwxr-x. 3 hadoop hadoop 21 5 月 2 16:34 namesecondary
可以看出 HDFS 的数据保存在/usr/local/src/hadoop/dfs 目录下,NameNode、 DataNode和/usr/local/src/hadoop/tmp/目录下,SecondaryNameNode 各有一个目 录存放数据。
5.2.2.4.查看 HDFS 的报告
[hadoop@master sbin]$ hdfs dfsadmin -report
5.2.2.5.使用浏览器查看节点状态
在浏览器的地址栏输入http://master:50070,进入页面可以查看NameNode和DataNode 信息
可以使用 start-dfs.sh 命令启动 HDFS。这时需要配置 SSH 免密码登录,否则在 启动过程中系统将多次要求确认连接和输入 Hadoop 用户密码。
[hadoop@master hadoop]$ stop-dfs.sh
[hadoop@master hadoop]$ start-dfs.sh
WordCount 官方案例
以上步骤完成后可以做一下如下测试:
运行测试: 下面运行 WordCount 官方案例,统计 data.txt 文件中单词的出现频度。这个案例可 以用来统计年度十大热销产品、年度风云人物、年度最热名词等。
1)在 HDFS 文件系统中创建数据输入目录
确保 dfs 和 yarn 都启动成功
[hadoop@master hadoop]$ start-yarn.sh
[hadoop@master hadoop]$ jps
34257 NameNode
34449 SecondaryNameNode
34494 Jps
32847 ResourceManager
如果是第一次运行 MapReduce 程序,需要先在 HDFS 文件系统中创建数据输入目 录,存放输入数据。这里指定/input 目录为输入数据的存放目录。
执行如下命 令,在 HDFS 文件系统中创建/input 目录:
[hadoop@master hadoop]$ hdfs dfs -mkdir /input
[hadoop@master hadoop]$ hdfs dfs -ls /
Found 1 items
drwxr-xr-x - hadoop supergroup 0 2020-05-02 22:26 /input
此处创建的/input 目录是在 HDFS 文件系统中,只能用 HDFS 命令查看和操作。
2)将输入数据文件复制到 HDFS 的/input 目录中 测试用数据文件仍然是上一节所用的测试数据文件~/input/data.txt,内容如下所示。
[hadoop@master hadoop]$ cat ~/input/data.txt
Hello World
Hello Hadoop
Hello Huasan
执行如下命令,将输入数据文件复制到 HDFS 的/input 目录中:
[hadoop@master hadoop]$ hdfs dfs -put ~/input/data.txt /input
确认文件已复制到 HDFS 的/input 目录:
[hadoop@master hadoop]$ hdfs dfs -ls /input
Found 1 items
-rw-r--r-- 1 hadoop supergroup 38 2020-05-02 22:32 /input/data.txt
3)运行 WordCount 案例,计算数据文件中各单词的频度。
运行 MapReduce 命令需要指定数据输出目录,该目录为 HDFS 文件系统中的目录,会自 动生成。如果在执行 MapReduce 命令前,该目录已经存在,则执行 MapReduce 命令会出 错。 例如 MapReduce 命令指定数据输出目录为/output,/output 目录在 HDFS 文件系统中已 经存在,则执行相应的 MapReduce 命令就会出错。所以如果不是第一次运行 MapReduce,就要先查看HDFS中的文件,是否存在/output目录。如果已经存在/output 目录,就要先删除/output目录,再执行上述命令。自动创建的/output 目录在 HDFS 文件 系统中,使用 HDFS 命令查看和操作。
[hadoop@master hadoop]$ hdfs dfs -mkdir /output
先执行如下命令查看 HDFS 中的文件:
[hadoop@master hadoop]$ hdfs dfs -ls /
Found 3 items
drwxr-xr-x - hadoop supergroup 0 2020-05-02 22:32 /input
drwxr-xr-x - hadoop supergroup 0 2020-05-02 22:49 /output
上述目录中/input 目录是输入数据存放的目录,/output 目录是输出数据存放的目录。执 行如下命令,删除/output 目录。
[hadoop@master hadoop]$ hdfs dfs -rm -r -f /output
执行如下命令运行 WordCount 案例:(在浏 览器的地址栏输入:http://master:8088,在界面也能看到新生成的目录)
[hadoop@master hadoop]$ hadoop jar share/hadoop/mapreduce/hado map op-- reduce-examples-2.7.1.jar wordcount /input/data.txt /output
可以使用 HDFS 命令直接查看 part-r-00000 文件内容,结果如下所示:
[hadoop@master hadoop]$ hdfs dfs -cat /output/part-r-00000
Hadoop 1
Hello 3
Huasan 1
World 1
可以看出统计结果正确,说明 Hadoop 运行正常。
5.3.停止 Hadoop
(注意节点,是哪一个节点停止)
5.3.1.停止 yarn
[hadoop@master hadoop]$ stop-yarn.sh
5.3.2.停止 DataNode
[hadoop@slave1 hadoop]$ hadoop-daemon.sh stop datanode
stopping namenode
[hadoop@slave2 hadoop]$ hadoop-daemon.sh stop datanode
stopping namenode
5.3.3.停止 NameNode
[hadoop@master hadoop]$ hadoop-daemon.sh stop namenode
stopping namenode
5.3.4.停止 SecondaryNameNode
[hadoop@master hadoop]$ hadoop-daemon.sh stop secondarynamenode
stopping secondarynamenode
5.3.5.查看 JAVA 进程
确认 HDFS 进程已全部关闭
[hadoop@master hadoop]$ jps
3528 Jps
30838 RunJar
六、Hive数据仓库组件
6.1下载和解压安装文件
- 解压安装文件
[root@master ~]# tar zxf tools/apache-hive-2.0.0-bin.tar.gz -C /usr/local/src/
[root@master ~]# mv /usr/local/src/apache-hive-2.0.0-bin/ /usr/local/src/hive
[root@master ~]# chown -R hadoop:hadoop /usr/local/src/hive
6.2.设置 Hive 环境
- 卸载 MariaDB 数据库
[root@master ~]# rpm -qa | grep mariadb mariadb-libs-5.5.56-2.el7.x86_64
[root@master ~]# rpm -e --nodeps mariadb-libs-5.5.56-2.el7.x86_64
- 安装 MySQL 数据
[root@master tools]# cd mysql-5.7.18/
[root@master mysql-5.7.18]# rpm -ivh mysql-community-common-5.7.18- 1.el7.x86_64.rpm
[root@master mysql-5.7.18]# rpm -ivh mysql-community-libs-5.7.18-1.el7.x86_64.rpm
[root@master mysql-5.7.18]# rpm -ivh mysql-community-client-5.7.18- 1.el7.x86_64.rpm
[root@master mysql-5.7.18]# rpm -ivh mysql-community-server-5.7.18- 1.el7.x86_64.rpm
[root@master mysql-5.7.18]# vim /etc/my.cnf
[root@master mysql-5.7.18]# tail -n 8 /etc/my.cnf
[root@master mysql-5.7.18]# systemctl status mysqld
[root@master mysql-5.7.18]# cat /var/log/mysqld.log | grep password ---这里修改密码,一定记住这里查询的原始密码
[root@master mysql-5.7.18]# mysql_secure_installation
----yes or no 都是yes(除了下图的)2y 1n 2y
[root@master mysql-5.7.18]# mysql -uroot -p
(进入mysql可以做一个基础操作)
mysql>grant all privileges on . to root@'%' identified by 'Password123$';
mysql> flush privileges;
mysql> select user,host from mysql.user where user='root';
mysql> exit
6.3配置 Hive 组件
[root@master ~]# vim /etc/profile
[root@master ~]# tail -n 2 /etc/profile 55
export PATH=$PATH:$HIVE_HOME/bin export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
[root@master ~]# source /etc/profile
[root@master ~]# su - hadoop
[hadoop@master ~]$ vim /usr/local/src/hive/conf/hive-site.xml
7)在 Hive 安装目录中创建临时文件夹 tmp。
[hadoop@master ~]$ mkdir /usr/local/src/hive/tmp
6.4.初始化 hive 元数据
[hadoop@master tools]$ cp mysql-connector-java-5.1.46.jar /usr/local/src/hive/lib/ [hadoop@master tools]$ stop-all.sh
[hadoop@master tools]$ start-all.sh
[hadoop@master tools]$ hive
版权归原作者 蘑古力~ 所有, 如有侵权,请联系我们删除。