前言:
在当今的大数据时代,数据量的爆炸性增长对数据处理能力提出了前所未有的挑战。传统的数据处理工具和方法已经无法满足日益增长的需求,这就需要更高效、更强大的技术来应对这些挑战。Hadoop作为一个开源的分布式计算框架,因其卓越的可扩展性和高效的数据处理能力,已经成为处理大规模数据集的首选工具之一。让我们一起踏上这段探索之旅,深入了解Hadoop完全分布式的强大世界吧!
一、前期工作准备
1、在虚拟机上准备三台CentOS6/CentOS7的操作系统
注:一台用来做主节点,两台做从节点(本次的教程使用CentOS6的Linux操作系统)
2、修改网络配置-完成集群组网
注:三台都需要做对应网络配置
2.1 编辑网络配置(主节点配置)
#切换目录
cd /etc/sysconfig/network-script/
#查看
ls
#编辑 --- 可能这个文件名字不一样,但是里面的内容是一样的
vim ifcfg-eth0
2.2 重启网络服务
2.3 ping一下网络是否能够ping通
2.4 编辑网络配置(第一台从节点配置)
2.5 重启网络服务
2.6 ping一下网络是否能够ping通
2.7 编辑网络配置(第二台从节点配置)
2.8 重启网络服务
2.9 ping一下网络是否能够ping通
3、关闭三台虚拟机的防火墙
4、修改三台虚拟机的主机名
二、完全分布式搭建
1、绑定三台虚拟机的主机名和IP实现互通
2、给三台虚拟机创建一个hd普通用户(我这里使用普通用户进行环境搭建,避免后面不必要的麻烦)
3、配置免密登录(保证主节点能够访问(ssh)到两个从节点)
3.1 主节点使用hd用户生成密钥
#生成密钥的命令
ssh-keygen -t rsa
3.2 将生成的公钥复制到公钥库中(主节点hd生成的密钥中包含私钥和密钥)
3.3 主节点上将公钥库发送到两个从节点上
#发送命令
scp ~/.ssh/authorized_keys hd@hadoopSlave02:~/.ssh/
4、使用远程工具连接三台虚拟机-为了方便后续操作(有很多工具,随便选一个就可以)
5、在三台虚拟机的hd用户家目录下创建一个software目录和hadooptmp目录(software目录为了方便管理软件包,hadooptmp目录用于存放集群启动后的一些信息)
6、上传jdk和hadoop压缩包到software目录下(主节点上传就可以了,从节点使用命令远程发送)
7、解压jdk和hadoop压缩包
#解压命令
tar -zxvf 压缩包名字
8、配置jdk和hadoop环境变量
注: 里面对应的文件位置根据自己的来进行修改
# 进行到这个文件里进行配置
vim ~/.bash_profile
9、刷新环境变量并检查是否配置成功
10、进入hadoop目录下去配置Hadoop的核心文件
10.1 hadoop-env.sh文件
vim hadoop-env.sh
10.2 yarn-env.sh文件
10.3 core-site.xml文件
注: 这里配置的hadooptmp目录就是刚刚创建目录,你也可以换个名字,但是这里的路径要和你创建的一致
10.4 hdfs-site.xml文件
10.5 yarn-site.xml文件
10.6 mapred-site.xml文件
10.7 works文件(hadoop版本低的不是这个文件而是slaves文件,两个都是一样的效果)
11、分发配置好的环境变量和hadoop目录到从节点(两个都要发送)
#jdk和hadoop环境变量
scp -r ~/.bash_profile/ hd@hadoopSlave01/02:~/
#hadoop配置好的目录
scp -r hadoop-3.3.0 hd@hadoopSlave01/02:~/software/
注:分发完成后,需要在两个从节点的hadoop目录下分别创建hadooptmp文件夹,和主节点node1一样!
12、主节点进行初始化
#命令
hdfs namenode -format
13、启动hadoop集群(主节点上操作就可以了)
#命令
start-all.sh
14、查看集群启动进程
15、访问hdfs的Web UI页面是否成功
#命令
主节点的IP地址:9870
16、访问yarn的Web UI页面是否成功
#命令
主节点的IP地址:8088
注: 到此,便完成了本次Hadoop完全分布式的全部搭建过程!
版权归原作者 菩萨也落难 所有, 如有侵权,请联系我们删除。