0


Hadoop利用mapreduce进行词频统计 & yarn查看统计结果 (0基础手把手教学)

好师傅的传送门:Hadoop分布式词频统计 (yuque.com) 非常精简干练 思路非常流畅

在这里继续详细补充一下 详细的 0基础小白上手mapreduce词频统计的步骤

一、基础

Hadoop完全式分布搭建完成

若还未进行搭建 请看下面这位老哥这篇博文 非常详细 Hadoop完全分布式搭建(Hadoop-3.3.0)_hadoop3.3-CSDN博客

二、思路

1、先将词频统计文本准备好 且启动集群
2、将文本上传到虚拟机文件夹中
3、将本文文件进一步从虚拟机文件夹中上传到集群文件夹下
4、启动mapreduce功能
5、跑输出结果 & WebUI界面进行yarn的统计结果查看

三、实操

1、先将词频统计文本准备好 & 启动集群

注:用的词频统计的 1.txt 的内容如下(自己创建1.txt文件 原封不动粘进去 )

hello tom hello allen hello
allen tom mac apple
hello allen apple
hello apple spark allen hadoop spark

内容准备好:命名为1.txt 即可

集群启动:

【关闭防护墙 三台node机器均需要】

systemctl stop firewalld.service

【开启dfs 每台机器均要 】

start-dfs.sh

【查看开启情况 每台均要】

jps

hadoop1:

hadoop2:

hadoop3:

2、将文本上传到虚拟机文件夹中

tips:需要一点Linux基础 想要了解常用命令 可见:Ubuntu(乌班图)常用命令-CSDN博客

    Ubuntu和Linux 是不同的发行版 指令基本上保持一致
(1)创建虚拟机本地文件夹为input
mkdir /input
(2)进入input文件夹
cd /input
(3)将文本文件写入 命名为1.txt
vim 1.txt
(4)写入

输入i 进入写入模式 粘贴刚刚上面的文本内容

按住shift 再摁esc 和 冒号

发现下方有冒号(:)输入 wq 回车 完成写入并保存

退出并保存

3、将文件上传到集群文件夹

(1)集群创建input文件夹 路径是 /user/root/input
hdfs dfs -mkdir -p /user/root/input
(2)上传虚拟机文件到集群文件夹
hdfs dfs -put /input/1.txt /user/root/input
(3)查看集群文件夹中文件是否被成功上传
hdfs dfs -ls /user/root/input 

4、启动mapreduce

(1)进入mapr文件夹
cd /opt/server/hadoop/share/hadoop/mapreduce/  
(2)启动输出

注意:这里output文件夹必须是没有被创建过的 否则会报错

清除掉路径的output文件夹 指令:

hdfs dfs -rm -r -f /user/root/output

开启输出

注意:这里的指定输出文件夹不能是本地文件夹,必须是集群上的,且不存在的,在输出统计数据时所指定的文件夹会自动被创建。

hadoop jar hadoop-mapreduce-examples-3.3.6.jar wordcount /user/root/input /user/root/output

5、出运行结果 & web界面查看结果

(1)看到命令行结果
hdfs dfs -cat /user/root/output/part-r-00000 
(2)进入webui界面

首先打开hadoop1机子的火狐

格式【ip地址:端口号】 回车 即可进入webui界面

默认端口号:9870 ip地址开终端输入”ip a“ 找到粘贴过来即可

(3)查看yarn结果

点击user 重复点击 出现两张 一张input 一张output 点击output 即可查看分词结果


本文转载自: https://blog.csdn.net/2401_84908950/article/details/142835354
版权归原作者 Codingwiz_Joy顺 所有, 如有侵权,请联系我们删除。

“Hadoop利用mapreduce进行词频统计 & yarn查看统计结果 (0基础手把手教学)”的评论:

还没有评论