【Hadoop集群搭建】JDK安装及配置、Hadoop本地模式部署及测试

1. 安装 SSH 工具

SSH Secure Shell Client 传输软件

FinalShell(推荐使用)

1.1使用SSH工具将JDK安装包上传至虚拟主机hadoop01, hadoop02, hadoop03，sogou500w 数据上传至 hadoop01。

a. 在虚拟主机/usr 目录下创建文件夹 java，JDK 上传至此目录（创建文件夹可能需要 root 角色）

mkdir java

b. 在虚拟主机创建文件夹 sogou, sogou500w 数据上传至此目录。

    复制以后请使用 Linux 命令查看一下该文件的前 10 行和后 10 行数据。

mkdir sogou

2. 安装 JDK 并且配置环境变量。

****（注意 JDK 需要在三台客户虚拟机上分别独立完整安装配置，为分布式 ********Hadoop 集群安装部署做准备。） ****

    直接解压缩 JDK 安装包，如下所示，所在目录为/usr/java 目录下。安装时 

    注意：文件夹权限，如果权限不足，需要使用 chmod 命令修改。

2.1 修改文件夹权限为可读可写可执行权限

chomd -R 777 java

2.2 把window主机的jdk拖拽到/usr/java目录下

2.3 解压缩JDK安装包

sudo tar -zxvf /usr/java/jdk-8u212-linux-x64.tar.gz -C /usr/java/

2.4 配置环境变量

    添加 JAVA_HOME 变量并赋值;

    编辑 PATH 变量，添加 JAVA 的 bin 目录，如下图所示内容。

export JAVA_HOME=/usr/java/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin

    使环境变量生效。

    验证安装配置成功。

java -version

3. 将 JDK 远程拷贝至虚拟主机 hadoop101,hadoop102并解压缩

环境变量配置后续用xsync集群分发脚本复制粘贴即可。

3.1 将JDK拷贝给虚拟机hadoop101

    解压缩

3.2 将JDK拷贝给虚拟机hadoop102

    解压缩

4. Hadoop 本地模式部署

4.1 下载 hadoop 安装包并上传至虚拟机文件目录

    我下载的版本是3.1.3。** **

    在主机 hadoop100 解压缩 hadoop 压缩包，命令如下所示：

获取hadoop安装路径

4.2 配置hadoop环境变量

export HADOOP_HOME= 

export PATH=$:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin

4.3 使环境变量生效

source .bash_profile

    执行以下命令验证 hadoop 安装配置成功。** **

hadoop version

    将hadoop从hadoop100拷贝到hadoop101

    将hadoop从hadoop100拷贝到hadoop102

    在/home/2130502441ryx/下创建以下数据目录：

    在此目录下编辑数据文件 wc.input

    在文件内输入以下内容：

    在/home/2130502441ryx/data 下创建文件夹 input，并将/home/gdpu/hadoop-2.8.1/etc/hadoop 目录里下的 xml 文件拷贝至 input 目录下。

5. Hadoop 自带程序测试（StandAlone 模式下）

5.1 grep 官方案例，此案例的功能是将文件中符合规则的内容输出。

    在 data 目录下运行以下 hadoop 命令，命令如下：

hadoop jar /home/2130502441ryx/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar grep input ouput 'dfs[a-z.]+'

    查看输出到本地的 output 目录下的结果文件：符合正则表达式 ‘dfs[az.]+’的内容输出到 part-r-00000 结果文件中，另外还有一个文件_SUCCESS 文件，说明 Job 运行成功。

    请将 part-r-00000 结果文件中的内容截图并记录在下面：

可以看到符合正则表达式 ‘dfs[az.]+’只有一行。

前面output文件名打错了，修改如下：

    思考题：将 wc.input 文件移动到 input 目录下，现如今要将 input 文件夹下所有文件内容中包含 ‘dfs’的内容提取，并将结果输出到结果目录 output中，请写出相应的 hadoop 执行命令在以下的方框内。并打印输出结果 part-r-00000 文件的内容。

① 将 wc.input 文件移动到 input 目录下

（mv wc.input /home/2130502441ryx/data/input/）

② 查看是否成功

③ 将符合要求的结果输出到output2中

④ 打印输出结果

可以看到有四行包含dfs，前面没有加入wc.input的时候只有一行，加上wc.input里面的三个刚好是4。

5.2 WordCount 官方案例

    运行以下命令，实现对文件内容的单词计数

hadoop jar /home/2130502441ryx/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar  wordcount input/wc.input output3

    查看执行结果文件的内容 part-r-00000，输出到以下方框内。

① 运行命令

② 查看part-r-00000的输出内容

标签： java hadoop 开发语言

本文转载自: https://blog.csdn.net/m0_67830223/article/details/139783686
版权归原作者 布丁椰奶冻 所有，如有侵权，请联系我们删除。