0


Hadoop本地运行模式环境搭建

Hadoop实验

学校Hadoop实验课,课前已经配置好了,最后需要提交实验报告,只能重新配置一遍。yingyingying~~~

实验步骤

Step1):新建虚拟机
Step2):CentOS配置
Step3):配置网络并远程连接
Step4):克隆出三台虚拟机
Step5):安装配置JAVA和Hadoop
Step6):以本地模式运行Hadoop
Step7): 运行WordCount案例

详细步骤如下

Step1):按照如下配置建立虚拟机

1.点击“新建虚拟机”,使用推荐的配置,点击“下一步”
在这里插入图片描述

2.选择“安装程序光盘映像文件”,点击“下一步”
在这里插入图片描述

3.输入应填写的内容,点击“下一步”
在这里插入图片描述

4.给虚拟机命名为“Hadoop”,并保存到相应的位置。
在这里插入图片描述

5.点击“完成”,就创建了虚拟机
在这里插入图片描述

6.按照如下配置,进行部分参数的修改。
在这里插入图片描述

Step2):CentOS配置

1.启动虚拟机后,我 们会看到下面这个界面: 这一步,我们选择 Install CentOS 7 ,按回车继续。
在这里插入图片描述

2.选择语言
在这里插入图片描述

3.设置时区为上海
在这里插入图片描述

4.在这个页面中选择GNOME桌面,然后点击开始安装
在这里插入图片描述

  1. 设置root用户密码在这里插入图片描述

设置密码后点两次完成退出
在这里插入图片描述

6.完成后重启
在这里插入图片描述

7.Linux界面(这里为了日后更方便学习linux,在设置中将中文改成了英文,并且调整了清晰度)
在这里插入图片描述

Step3)配置网络并远程连接

1、配置网络
使用命令“vim /etc/hostname”,将虚拟机改名为“hadoop100”,
再使用如下命令,进行网络配置,将BOOTPROTO,IPADDR,GATEWAY改成如图配置,
在这里插入图片描述
在这里插入图片描述

8.使用“ping”命令检查配置后是否可以连接网络,出现如图所示内容,代表连接上了网络,使用“ctrl+c”进行终止,(“ctrl+z”看似可以终止,但是后台会运行,这里不做过多赘述)
在这里插入图片描述

2.远程连接
打开“Xshell7”,然后按照下图所示进行配置
在这里插入图片描述

之后点击“用户身份验证”,作用是连接Xshell7后登录的用户,之后点击“确定”

在这里插入图片描述

找到Hadoop点击连接,在这里插入图片描述
显示“[root@hadoop100 ~]# ”表示连接成功。
在这里插入图片描述

Step4)克隆出三台虚拟机

右键“Hadoop”,找到“管理”->“克隆”,
在这里插入图片描述

点击下一页
在这里插入图片描述

再点击下一页
在这里插入图片描述

选择完整克隆,点击下一页
在这里插入图片描述

然后进行相关配置进行克隆,这里本人命名为了“Hadoop102”,点击“完成”
在这里插入图片描述

按照上面的步骤本人又克隆出了另外两台虚拟机,“hadoop102”、“hadoop103”,之后又按照step3的步骤配置了主机名与网络配置
在这里插入图片描述

Step5):安装配置JAVA和Hadoop

本人是使用Xftp7将Java与Hadoop的压缩包移动到了Hadoop中的“/usr/local/”路径下
1.Java的安装与配置
使用命令“tar -xvzf jdk-8u281-linux-x64.tar.gz -C /usr/local/”,对其进行解压。
并将jdk1.8.0_281目录改名为jdk。使用命令“mv jdk1.8.0_281/ jdk”,再修改jdk目录权限。
结果如图(这里的图片是解压完Java和Hadoop的)
在这里插入图片描述

修改profile文件,进行环境变量的配置,使用命令“# vi /etc/profile”在文末加入如下命令
在这里插入图片描述

使用命令“source /etc/profile”使其立即生效。
测试JDK是否正常工作:
在这里插入图片描述

2安装配置Hadoop
使用命令“cd /opt/software”移动目录“/opt/software”下,使用命令“tar -xvzf hadoop-3.2.2.tar.gz -C /usr/local”解压hadoop-3.2.2.tar.gz到“/usr/local”目录下,结果如图
在这里插入图片描述

(上述图片中的“hadoop -> hadoop-3.2.2”为一个软连接,可以通过使用“hadoop”调用“hadoop-3.2.2”
创建的命令为“ln -s hadoop-3.2.2 hadoop”。)
使用命令“vi /etc/profile”修改profile文件,将如下内容添加到文件末尾,进行环境变量的配置
在这里插入图片描述

使用命令“source /etc/profile”使其立即生效。

Step6):以本地模式运行Hadoop(不知到这里改运行什么就随便运行一下grep命令)

该命令的作用为:提供一些文本文件,可以从中找到想要匹配的文本
将Hadoop的xml配置文件复制到input并运行,命令如下图
在这里插入图片描述

运行命令解释:
hadoop:hadoop启动命令
jar:以jar包运行方式运行
share/hadoop/mapreduce-examles-3.2.2.jar :这是hadoop官网提供的案例目录
grep:启动grep案例
input:输入目录
output:输出目录
如果存在output输出目录,则程序会报错
‘dfs[a-z.]+’:正则表达式 表示已dfs开头所有匹配项,可无限累加
下图为命令运行的过程显示的结果
在这里插入图片描述

下图为运行结束显示的结果
在这里插入图片描述

查看home目录发现多了“output”文件夹
在这里插入图片描述

进入“output”,并查看所有文件
在这里插入图片描述

只有一个运行结果。
在这里插入图片描述

Step7): 运行WordCount案例

在文档目录下创建一个wcinput目录
wcinput文件下创建一个work.txt文件,其内容为

sunyuan sunyuan sunyuan sunyuan asd assd fgnfhm sadgfs adg dgn advadv advadv sb asd

运行过程命令

在这里插入图片描述
在这里插入图片描述
运行结果为(本人姓名拼音为“sunyuan”)出现4次
在这里插入图片描述

思考与分析

1Hadoop本地模式与分布式模式有何不同?

本地模式是单机运行Hadoop,所有的输入和输出数据都存储在本地文件系统中,任务在本地处理,不涉及分布式存储和计算。而分布式模式依赖HDFS和YARN,数据存储在多个节点的分布式文件系统中,任务分发到不同的计算节点进行并行处理,适用于处理大规模数据。

2. 在本次实验中,为什么需要克隆多台虚拟机?

克隆多台虚拟机的目的是为了模拟Hadoop的分布式环境。尽管本次实验在本地模式下运行,但通过克隆多台虚拟机,可以在后续实验中配置伪分布式集群,以便更好地理解Hadoop在多节点环境下的工作机制。


本文转载自: https://blog.csdn.net/2302_76471770/article/details/142063744
版权归原作者 机器学习-ing 所有, 如有侵权,请联系我们删除。

“Hadoop本地运行模式环境搭建”的评论:

还没有评论