0


【Hadoop集群搭建】JDK安装及配置、Hadoop本地模式部署及测试

1. 安装 SSH 工具

SSH Secure Shell Client 传输软件

FinalShell(推荐使用)

*1.1使用SSH工具将JDK安装包上传至虚拟主机hadoop01, hadoop02, hadoop03,*****sogou500w 数据上传至 hadoop01。 ****

a. 在虚拟主机/usr 目录下创建文件夹 java,JDK 上传至此目录(创建文件夹可能需要 root 角色)

  1. mkdir java

b. 在虚拟主机创建文件夹 sogou, sogou500w 数据上传至此目录。

  1. 复制以后请使用 Linux 命令查看一下该文件的前 10 行和后 10 行数据。
  1. mkdir sogou

****2. 安装 JDK 并且配置环境变量。 ****

****(注意 JDK 需要在三台客户虚拟机上分别独立完整安装配置,为分布式 ********Hadoop 集群安装部署做准备。) ****

  1. 直接解压缩 JDK 安装包,如下所示,所在目录为/usr/java 目录下。安装时
  2. 注意:文件夹权限,如果权限不足,需要使用 chmod 命令修改。

2.1 修改文件夹权限为可读可写可执行权限

  1. chomd -R 777 java

2.2 把window主机的jdk拖拽到/usr/java目录下

2.3 解压缩JDK安装包

  1. sudo tar -zxvf /usr/java/jdk-8u212-linux-x64.tar.gz -C /usr/java/

2.4 配置环境变量

  1. 添加 JAVA_HOME 变量并赋值;
  2. 编辑 PATH 变量,添加 JAVA bin 目录,如下图所示内容。
  1. export JAVA_HOME=/usr/java/jdk1.8.0_212
  2. export PATH=$PATH:$JAVA_HOME/bin

  1. 使环境变量生效。

  1. 验证安装配置成功。
  1. java -version

3. 将 JDK 远程拷贝至虚拟主机 hadoop101,hadoop102并解压缩

环境变量配置后续用xsync集群分发脚本复制粘贴即可。

3.1 将JDK拷贝给虚拟机hadoop101

  1. 解压缩

3.2 将JDK拷贝给虚拟机hadoop102

  1. 解压缩

****4. Hadoop 本地模式部署 ****

4.1 下载 hadoop 安装包并上传至虚拟机文件目录

  1. 我下载的版本是3.1.3。** **

  1. 在主机 hadoop100 解压缩 hadoop 压缩包,命令如下所示:

获取hadoop安装路径

4.2 配置hadoop环境变量

  1. export HADOOP_HOME=
  2. export PATH=$:$HADOOP_HOME/bin
  3. export PATH=$PATH:$HADOOP_HOME/sbin

4.3 使环境变量生效

  1. source .bash_profile

  1. 执行以下命令验证 hadoop 安装配置成功。** **
  1. ​​​​​​​hadoop version

  1. hadoophadoop100拷贝到hadoop101

  1. hadoophadoop100拷贝到hadoop102

  1. 在/home/2130502441ryx/下创建以下数据目录:

  1. 在此目录下编辑数据文件 wc.input

  1. 在文件内输入以下内容:

  1. 在/home/2130502441ryx/data 下创建文件夹 input,并将/home/gdpu/hadoop-2.8.1/etc/hadoop 目录里下的 xml 文件拷贝至 input 目录下。

****5. Hadoop 自带程序测试(StandAlone 模式下) ****

5.1 grep 官方案例,此案例的功能是将文件中符合规则的内容输出。

  1. data 目录下运行以下 hadoop 命令,命令如下:
  1. hadoop jar /home/2130502441ryx/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar grep input ouput 'dfs[a-z.]+'
  1. 查看输出到本地的 output 目录下的结果文件:符合正则表达式 dfs[az.]+’的内容输出到 part-r-00000 结果文件中,另外还有一个文件_SUCCESS 文件,说明 Job 运行成功。

  1. 请将 part-r-00000 结果文件中的内容截图并记录在下面: ​​​​​​​

可以看到符合正则表达式 ‘dfs[az.]+’只有一行。

前面output文件名打错了,修改如下:

  1. 思考题:将 wc.input 文件移动到 input 目录下,现如今要将 input 文件夹下所有文件内容中包含 dfs’的内容提取,并将结果输出到结果目录 output中,请写出相应的 hadoop 执行命令在以下的方框内。并打印输出结果 part-r-00000 文件的内容。

① 将 wc.input 文件移动到 input 目录下

(mv wc.input /home/2130502441ryx/data/input/)

② 查看是否成功

③ 将符合要求的结果输出到output2中

④ 打印输出结果

可以看到有四行包含dfs,前面没有加入wc.input的时候只有一行,加上wc.input里面的三个刚好是4。

5.2 WordCount 官方案例

  1. 运行以下命令,实现对文件内容的单词计数
  1. hadoop jar /home/2130502441ryx/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount input/wc.input output3
  1. 查看执行结果文件的内容 part-r-00000,输出到以下方框内。

① 运行命令

② 查看part-r-00000的输出内容


本文转载自: https://blog.csdn.net/m0_67830223/article/details/139783686
版权归原作者 布丁椰奶冻 所有, 如有侵权,请联系我们删除。

“【Hadoop集群搭建】JDK安装及配置、Hadoop本地模式部署及测试”的评论:

还没有评论