3. Hadoop集群搭建
3.1 安装JDK
如果Linux中有自带的JDK一定要先卸载,参考配置模板机中卸载原始JDK的操作。卸载完成后再进行安装,安装JDK需要使用远程传输工具将安装包上传到Linux系统中,具体安装流程如下:
- 用远程传输工具将JDK导入到opt目录下面的software文件夹下面。
上传完成后可以在/opt/software/目录中查看到jdk的详细情况
- 解压JDK到/opt/module目录下:
[root@hadoop102 software]# tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/
- 配置JDK环境变量 1. 新建/etc/profile.d/my_env.sh文件
[li@hadoop102 ~]$ vim /etc/profile.d/my_env.sh
添加如下内容:
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin
Linux环境变量配置在/etc/profile文件或/etc/profile.d/中的区别:
1、当前Shell环境变量配置 ~/.bash_profile 当前用户专属的启动文件,可根据不同用户定制不同的环境变量。 触发时机:每当创建新的shell终端或ssh登入调用(即 no login shell)
2、全局Shell环境变量配置 /etc/profile 所有用户的环境变量,统一配置。 触发时机:每次开机并成功登录Linux系统将调用(即 login shell)
3、自定义Shell环境变量(目录) /etc/profile.d/*.sh 用于存放自定义shell脚本,可供所有授权用户调用,可认为其为全局变量。
触发时机:每当登入系统或有新建的shell终端(包括非交互的定时任务) 都会调用优点:
通用的环境变量,按功能独立文件存储,也便于管理(如:History日志格式化,开发工具Java、Maven、Gradle、Android、NodeJS等用到的环境变量分类存储)
有助于不同Linux主机之间进行迁移/复制、保持统一。同类功能的目录如:/etc/init.d/、/etc/rc.d//、/etc/cron.d/、/etc/yum.repos.d等。 配置立即生效后,其将作用于所有已创建shell新执行的命令注意:
- 目录 /etc/profile.d/ 下新建的shell脚本,注意授予执行权限;
- shell脚本文件命名要规范、统一,做到见名知义;
- 各shell脚本中,不要存在相同环境变量名,避免后者覆盖前者,造成不可预知异常;
4、调用优先级
当登录Linux系统时,bash shell会作为登录shell启动。登录shell会从以下几个文件中读取:
- /etc/profile
- $HOME/.bash_profile
- $HOME/.bashrc 每次启用shell会将 /etc/profile 中自定义的部分同步更新
- /etc/profile.d/*.sh
- $HOME/.bash_login 默认无此文件,支持自定义用户登入事件
- $HOME/.bash_logout 默认文件为空,支持自定义用户登出事件
- 保存后退出
:wq
- 使用source命令更新环境变量,让新的环境变量PATH生效
[li@hadoop102 ~]$ source /etc/profile
- 测试JDK是否安装成功
[li@hadoop102 ~]$ java -version
java version "1.8.0_212"
Java(TM) SE Runtime Environment (build 1.8.0_212-b10)
Java HotSpot(TM)64-Bit Server VM (build 25.212-b10, mixed mode)
表明JDK安装完成。
- 重启(如果java -version可以执行就不用重启)
[li@hadoop102 ~]$ reboot
3.2 安装Hadoop
Hadoop下载地址:https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/
安装流程:
- 用远程文件传输工具将hadoop-3.1.3.tar.gz导入到opt目录下面的software文件夹下面:
上传完后在/opt/software/目录中查看是否上传成功:
- 解压安装文件到/opt/module下面
[li@hadoop102 software]$ tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/
- 查看是否解压成功
- 将Hadoop添加到环境变量 1. 获取Hadoop安装路径
[li@hadoop102 module]$ cd hadoop-3.1.3/
[li@hadoop102 hadoop-3.1.3]$ pwd
/opt/module/hadoop-3.1.3
- 打开/etc/profile.d/my_env.sh文件
[li@hadoop102 profile.d]$ vim /etc/profile.d/my_env.sh
# 注意用户权限,可能需要修改权限
在my_env.sh文件末尾添加如下内容:
#HADOOP_HOMEexportHADOOP_HOME=/opt/module/hadoop-3.1.3
exportPATH=$PATH:$HADOOP_HOME/bin
exportPATH=$PATH:$HADOOP_HOME/sbin
- 保存退出:wq
- 使用source命令更新环境变量文件
[li@hadoop102 profile.d]$ source /etc/profile
- 测试是否安装成功:
- 重启(如果Hadoop命令不能用再重启虚拟机)
[li@hadoop102 profile.d]$ reboot
3.3 Hadoop目录结构
- 查看Hadoop目录结构
[li@hadoop102 ~]$ cd /opt/module/hadoop-3.1.3/
[li@hadoop102 hadoop-3.1.3]$ ll
总用量 200
drwxr-xr-x. 2 li li 40969月 122019 bin
drwxr-xr-x. 3 li li 40969月 122019 etc
drwxr-xr-x. 2 li li 40969月 122019 include
drwxr-xr-x. 3 li li 40969月 122019 lib
drwxr-xr-x. 4 li li 40969月 122019 libexec
-rw-rw-r--. 1 li li 1471459月 42019 LICENSE.txt
-rw-rw-r--. 1 li li 218679月 42019 NOTICE.txt
-rw-rw-r--. 1 li li 13669月 42019 README.txt
drwxr-xr-x. 3 li li 40969月 122019 sbin
drwxr-xr-x. 4 li li 40969月 122019 share
重要目录:
- bin目录:存放对Hadoop相关服务(hdfs,yarn,mapred)进行操作的脚本,但通常使用的脚本在sbin目录下。
- etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件,主要包含:core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml等文件
- lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
- sbin目录:存放启动或停止Hadoop相关服务的脚本,主要 包含HDFS和YARN中各类服务的启动、关闭脚本。
- share目录:存放Hadoop的依赖jar包、文档、和官方案例
3.4 Hadoop运行模式
Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。
- 本地模式(单机运行):默认情况下,Hadoop 配置为以非分布式模式运行,作为单个 Java 进程。对于调试很有用,用来演示官方案例,生产环境不用。
- 伪分布式模式:Hadoop 也可以在单节点上以伪分布式模式运行,其中每个 Hadoop 守护进程在单独的 Java 进程中运行。也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。可以用作测试,生产环境不用。
- 完全分布式模式:多台服务器组成分布式环境,生产环境使用。
3.4.1 本地运行模式
WordCount案例,流程:
- 创建在hadoop-3.1.3文件下面创建一个wcinput文件夹:
[li@hadoop102 ~]$ cd /opt/module/hadoop-3.1.3/
[li@hadoop102 hadoop-3.1.3]$ mkdir wcinput
- 在wcinput文件下创建一个word.txt文件,并在文件中输入如下内容:
hadoop yarn
hadoop mapreduce
school
school
[li@hadoop102 hadoop-3.1.3]$ cd wcinput
[li@hadoop102 wcinput]$ vim word.txt
- 退回到Hadoop目录/opt/module/hadoop-3.1.3
- 执行程序
[li@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput
- 执行完代码后在hadoop-3.1.3目录中会生成一个wcoutput目录,该目录中生成两个文件:
[li@hadoop102 hadoop-3.1.3]$ cd wcoutput
[li@hadoop102 wcoutput]$ ll
总用量 4
-rw-r--r--. 1 li li 388月 2314:28 part-r-00000
-rw-r--r--. 1 li li 08月 2314:28 _SUCCESS
- 查看文件part-r-00000文件内容:
[li@hadoop102 wcoutput]$ cat part-r-00000
school 2
hadoop 2
mapreduce 1yarn1
3.4.2 伪分布式模式
省略
3.4.3 完全分布式运行模式
完全分布式模式(Fully-Distribute Mode)也叫集群模式,是真正的分布式、由3台及以上的实体机或者虚拟机组成的集群。
所需要的配置:
1. 3台虚拟机(关闭防火墙、静态IP、主机名称、配置hosts文件,能够连接外部网络,虚拟机之间网络通畅)
2. 安装JDK、Hadoop
3. 配置JDK、Hadoop环境变量
4. 配置集群
5. 单点启动
6. 配置ssh
7. 启动集群并测试
3.5 编写集群分发脚本xsync
3.5.1 scp(secure copy)安全拷贝
scp命令是基于SSH协议的在本地主机和远程主机之间复制文件的客户端。
1. scp定义
scp可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)
2. scp基本语法:
scp -r $pdir/$fname $user@$host:$pdir/$fname
命令 递归 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称
3. 案例实操
- 在hadoop102、hadoop103、hadoop104都已经创建好的/opt/module、/opt/software两个目录,并且已经把这两个目录归属修改为li:li
[li@hadoop102 ~]$ chown li:li /opt/software /opt/module
- 在hadoop102上,将hadoop102中/opt/module/jdk1.8.0_212目录拷贝到hadoop103上。
[li@hadoop102 opt]$ scp -r /opt/module/jdk1.8.0_212 li@hadoop103:/opt/module
- 在hadoop103上,将hadoop102中/opt/module/hadoop-3.1.3目录拷贝到hadoop103上。
[li@hadoop103 ~]$ scp -r li@hadoop102:/opt/module/hadoop-3.1.3 /opt/module/
执行命令时需要输入要连接主机的用户密码:
- 在hadoop103上操作,将hadoop102中/opt/module目录下所有目录拷贝到hadoop104上。
[li@hadoop103 ~]$ scp -r li@hadoop102:/opt/module/* li@hadoop104:/opt/module
3.5.2 rsync远程同步工具
rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync(remote synchronize)remote synchronize是一个远程数据同步工具。可通过LAN\WAN快速同步不同主机上的文件或目录;也可以使用rsync同步本地硬盘中的不同文件或目录。无论是使用rsync进行本地同步还是远程同步,首次运行时将会把全部文件复制一次,以后再运行时将只复制有变化的文件(对于新文件)或文件的变化部分(对于原文件)。这正是rsync的优势所在。
在使用rsync进行远程同步时,可以使用如下两种方式:
- 远程Shell方式:可以使用rsh、ssh等。默认使用ssh,即用户验证由ssh负责。
- C\S方式:客户连接远程rsync服务器,用户验证由rsync服务器负责,rsync服务器也可配置为匿名访问。访问rsync服务器时,可使用URL(rsync://host)的形式。
rsync和scp区别:用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新。scp是把所有文件都复制过去。
1. 基本语法:
rsync -av $pdir/$fname $user@$host:$pdir/$fname
命令 选项参数 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称
选项参数说明
选项****功能-a归档拷贝-v显示复制过程
2. 案例实操:
- 删除hadoop103中/opt/module/hadoop-3.1.3/wcinput
[li@hadoop103 hadoop-3.1.3]$ rm -rf wcinput
- 同步hadoop102中的/opt/module/hadoop-3.1.3到hadoop103
[li@hadoop102 module]$ rsync -av hadoop-3.1.3/ li@hadoop103:/opt/module/hadoop-3.1.3/
li@hadoop103's password:
sending incremental file list
wcinput/
wcinput/word.txt
sent 690,037 bytes received 2,679 bytes 125,948.36 bytes/sec
total size is 844,991,427 speedup is 1,219.82
3.5.3 xsync集群分发脚本
- 需求:循环复制文件到所有节点的相同目录下
- 需求分析:rsync命令原始拷贝:
rsync -av /opt/module username@hostname:/opt/
- 期望脚本:xsync要同步的文件名称
- 期望脚本在任何路径都能使用(脚本放在声明了全局环境变量的路径)
[li@hadoop102 module]$ echo$PATH
/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/opt/module/jdk1.8.0_212/bin:/opt/module/hadoop-3.1.3/bin:/opt/module/hadoop-3.1.3/sbin:/home/li/.local/bin:/home/li/bin
- 脚本实现 a. 在/home/li/bin目录下创建xsync文件
[li@hadoop102 module]$ cd /home/li
[li@hadoop102 ~]$ mkdir bin
[li@hadoop102 ~]$ cd bin
[li@hadoop102 bin]$ vim xsync
b. 在该文件中编写如下代码:
#!/bin/bash#1. 判断参数个数if[$# -lt 1]thenecho Not Enough Arguement!exit;fi#2. 遍历集群所有机器forhostin hadoop102 hadoop103 hadoop104
doecho====================$host====================#3. 遍历所有目录,挨个发送forfilein$@do#4. 判断文件是否存在if[ -e $file]then#5. 获取父目录pdir=$(cd -P $(dirname $file);pwd)#6. 获取当前文件的名称fname=$(basename $file)ssh$host"mkdir -p $pdir"rsync -av $pdir/$fname$host:$pdirelseecho$file does not exists!fidonedone
c. 修改脚本 xsync 具有执行权限
[li@hadoop102 bin]$ chmod +x xsync
d. 测试脚本
[li@hadoop102 bin]$ xsync /home/li/bin
==================== hadoop102 ====================
The authenticity of host'hadoop102 (192.168.10.132)' can't be established.
ECDSA key fingerprint is SHA256:bZDSJaYMXq5ajm0gBenocx3VJnQO1uxdhsAzv79rrj8.
ECDSA key fingerprint is MD5:d9:aa:00:6d:20:34:7b:ba:5a:eb:22:a6:51:15:d8:6e.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'hadoop102,192.168.10.132' (ECDSA) to the list of known hosts.
li@hadoop102's password:
li@hadoop102's password:
sending incremental file list
sent 80 bytes received 17 bytes 17.64 bytes/sec
total size is 739 speedup is 7.62
==================== hadoop103 ====================
li@hadoop103's password:
li@hadoop103's password:
sending incremental file list
bin/
bin/xsync
sent 869 bytes received 39 bytes 201.78 bytes/sec
total size is 739 speedup is 0.81
==================== hadoop104 ====================
li@hadoop104's password:
li@hadoop104's password:
sending incremental file list
bin/
bin/xsync
sent 869 bytes received 39 bytes 201.78 bytes/sec
total size is 739 speedup is 0.81
e. 将脚本复制到/bin中,以便全局调用
[root@hadoop102 bin]# cp /home/li/bin/xsync /bin/
f. 同步环境变量配置(root所有者)
[root@hadoop102 bin]# xsync /etc/profile.d/my_env.sh
g.让环境变量生效
[root@hadoop103 bin]# source /etc/profile[root@hadoop104 bin]# source /etc/profile
3.6 SSH无密登录配置
SSH是一种协议标准,是用在安全远程登录以及其它安全网络服务。
SSH协议SSH协议与telnet、ftp等协议主要的区别在于安全性。这就引出下一个问题:如何实现数据的安全呢?首先想到的实现方案肯定是对数据进行加密。加密的方式主要有两种:
- 对称加密(也称为密钥加密)
- 非对称加密(也称公钥加密)
对称加密原理:指加密解密使用同一套密钥。对称加密的加密强度高,很难破解。
但是在实际应用过程中不得不面临一个棘手的问题:如何安全的保存密钥呢?尤其是考虑到数量庞大的Client端,很难保证密钥不被泄露。一旦一个Client端的密钥被窃据,那么整个系统的安全性也就不复存在。为了解决这个问题,非对称加密应运而生。
非对称加密工作原理:
(服务器建立公钥: 每一次启动 sshd 服务时,该服务会查找 /etc/ssh/ssh_host* 的文件,若系统刚刚安装完成时,由于没有这些公钥,因此 sshd 会主动去计算出这些需要的公钥,同时也会计算出服务器需要的私钥。)
- 客户端主动联机请求: 若客户端想要联机到 ssh 服务器,则需要使用适当的客户端程序来联机,包括 ssh, putty 等客户端程序连接。
- 服务器传送公钥给客户端: 接收到客户端的要求后,服务器便将第一个步骤取得的公钥传送给客户端使用 (此时应是明码传送,反正公钥本来就是给大家使用的)。
- 客户端记录并比对服务器的公钥数据及随机计算自己的公私钥: 若客户端第一次连接到此服务器,则会将服务器的公钥记录到客户端的用户家目录内的 ~/.ssh/known_hosts 。若是已经记录过该服务器的公钥,则客户端会去比对此次接收到的与之前的记录是否有差异。若接受此公钥, 则开始计算客户端自己的公私钥。
- 回传客户端的公钥到服务器端: 用户将自己的公钥传送给服务器。此时服务器:具有服务器的私钥与客户端的公钥,而客户端则是: 具有服务器的公钥以及客户端自己的私钥,你会看到,在此次联机的服务器与客户端的密钥系统 (公钥+私钥) 并不一样,所以才称为非对称加密系统。
- 开始双向加解密: a. 服务器到客户端:服务器传送数据时,拿用户的公钥加密后送出。客户端接收后,用自己的私钥解密; b.客户端到服务器:客户端传送数据时,拿服务器的公钥加密后送出。服务器接收后,用服务器的私钥解密,这样就能保证通信安全。 非对称加密有两个密钥:“公钥”和“私钥”。公钥加密后的密文,只能通过对应的私钥进行解密。而通过公钥推理出私钥的可能性微乎其微。
这样就一定安全了吗?
上述流程会有一个问题:Client端如何保证接受到的公钥就是目标Server端的?如果一个攻击者中途拦截Client的登录请求,向其发送自己的公钥,Client端用攻击者的公钥进行数据加密。攻击者接收到加密信息后再用自己的私钥进行解密,不就窃取了Client的登录信息了吗?这就是所谓的"中间人攻击"
从上面的描述可以看出,问题就在于如何对Server的公钥进行认证?在https中可以通过CA来进行公证,可是SSH的公钥和密钥都是自己生成的,没法公证。只能通过Client端自己对公钥进行确认。
SHH是基于口令的认证等方法解决的这个问题的。
STelnet也是一个远程连接的技术,可以这样理解:远程连接以前用的是Telnet,但是通过发展,发现它的安全性堪忧,所以在它的基础上做了加密,这个加密是双向加密的,但是安全性也没有说级别特别高。所以,我们就把他理解成电动车外面扣了个罩子,变成老年代步车,比电动车安全一点,但是上高速,就别想了!安全性高的是SHH,现在的远程连接基本用SHH,他是一个双向加密,我的理解是第一次的连接是不能保证安全的,但双向连接建立了后面就安全了,所以它的安全性并不是很好的,同理,因为计算机里存的有证书,只要证书不失效,是可以认证安全性的,当然,证书也有伪造的。总之一句话:没有绝对的安全。
3.6.1 配置ssh
基本语法
ssh hadoop103
如果出现如下内容:
Are you sure you want to continue connecting (yes/no)?
输入yes,并回车就可以建立连接。
3.6.2 无密钥配置
- 免密登录原理
- 生成公钥和私钥
切换到/home/li/.ssh目录,使用命令生成公钥和私钥,敲(三个回车),就会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)
[li@hadoop102 ~]$ cd /home/li/.sh
[li@hadoop102 ssh]$ ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter fileinwhich to save the key (/home/li/.ssh/id_rsa):
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /home/li/.ssh/id_rsa.
Your public key has been saved in /home/li/.ssh/id_rsa.pub.
The key fingerprint is:
SHA256:hNFpzgSEkIcht9wFrXSbSvUgPQyi0Uzy9VRq99DHhRo li@hadoop102
The key's randomart image is:
+---[RSA 2048]----+
|++*=+O*+....||O===+O+=.E... ||. +o.==@+ .oo || o.oo+o..||.. S .||.|||||||
+----[SHA256]-----+
[li@hadoop102 ssh]$
- 将公钥拷贝到要免密登录的目标机器,并验证是否成功。
[li@hadoop102 .ssh]$ ssh-copy-id hadoop102
/usr/bin/ssh-copy-id: INFO: Source of key(s) to be installed: "/home/li/.ssh/id_rsa.pub"
/usr/bin/ssh-copy-id: INFO: attempting to log in with the new key(s), to filter out any that are already installed
/usr/bin/ssh-copy-id: INFO: 1 key(s) remain to be installed -- if you are prompted now it is to install the new keys
li@hadoop102's password:
Number of key(s) added: 1
Now try logging into the machine, with: "ssh 'hadoop102'"
and check to make sure that only the key(s) you wanted were added.
[li@hadoop102 .ssh]$ ssh-copy-id hadoop103
/usr/bin/ssh-copy-id: INFO: Source of key(s) to be installed: "/home/li/.ssh/id_rsa.pub"
/usr/bin/ssh-copy-id: INFO: attempting to log in with the new key(s), to filter out any that are already installed
/usr/bin/ssh-copy-id: INFO: 1 key(s) remain to be installed -- if you are prompted now it is to install the new keys
li@hadoop103's password:
Number of key(s) added: 1
Now try logging into the machine, with: "ssh 'hadoop103'"
and check to make sure that only the key(s) you wanted were added.
[li@hadoop102 .ssh]$ ssh-copy-id hadoop104
/usr/bin/ssh-copy-id: INFO: Source of key(s) to be installed: "/home/li/.ssh/id_rsa.pub"
/usr/bin/ssh-copy-id: INFO: attempting to log in with the new key(s), to filter out any that are already installed
/usr/bin/ssh-copy-id: INFO: 1 key(s) remain to be installed -- if you are prompted now it is to install the new keys
li@hadoop104's password:
Number of key(s) added: 1
Now try logging into the machine, with: "ssh 'hadoop104'"
and check to make sure that only the key(s) you wanted were added.
注意:
还需要在hadoop103上采用li账号配置一下无密登录到hadoop102、hadoop103、hadoop104服务器上。
还需要在hadoop104上采用li账号配置一下无密登录到hadoop102、hadoop103、hadoop104服务器上。
还需要在hadoop102上采用root账号,配置一下无密登录到hadoop102、hadoop103、hadoop104;
- ssh文件夹下(~/.ssh)的文件功能解释
[li@hadoop102 .ssh]$ cd ~/.ssh
[li@hadoop102 .ssh]$ ll
总用量 16
-rw-------. 1 li li 11828月 2321:44 authorized_keys
-rw-------. 1 li li 16758月 2321:26 id_rsa
-rw-r--r--. 1 li li 3948月 2321:26 id_rsa.pub
-rw-r--r--. 1 li li 5588月 2316:51 known_hosts
文件****说明authorized_keys存放授权过的无密登录服务器公钥id_rsa生成的私钥id_rsa.pub生成的公钥known_hosts记录ssh访问过计算机的公钥(public key)
版权归原作者 Mr李小四 所有, 如有侵权,请联系我们删除。