大数据技术基础实验四：HDFS实验——读写HDFS文件

文章目录

一、前言

在前面的实验中我们进行了HDFS的部署，并设置了一键启动HDFS操作，本期实验我们将使用HDFS开发环境进行HDFS写、读的编写，以及程序的运行，了解HDFS读写文件的调用流程，理解HDFS读写文件的原理。

好啦废话不多说，我们开始今天的实验操作。

二、实验目的

会在Linux环境下编写读写HDFS文件的代码
.会使用jar命令打包代码
会在master服务器上运行HDFS读写程序
会在Windows上安装Eclipse Hadoop插件
会在Eclipse环境编写读写HDFS文件的代码
会使用Eclipse打包代码
会使用Xftp工具将实验电脑上的文件上传至master服务器

三、实验原理

1、Java Classpath

Classpath设置的目的是告诉Java执行环境，在哪些目录下可以找到所要执行的Java程序所需要的类或者包。

Java执行环境本身就是一个平台，执行于这个平台上的程序是已编译完成的Java程序（文件后缀为.class）。如果将Java执行环境比喻为操作系统，如果设置Path变量是为了让操作系统找到指定的工具程序(以Windows来说就是找到.exe文件)，则设置Classpath的目的就是让Java执行环境找到指定的Java程序(也就是.class文件)。

我们来设置一下Classpath：

在设置中打开环境变量，然后点击新建

在这里插入图片描述

每一路径中间必须以英文;作为分隔。

在这里插入图片描述

2、Eclipse Hadoop插件下载

我们通过在Eclipse上下载Hadoop插件来开发Hadoop相关程序

因为我们学校的虚拟机集群环境是hadoop2.7.1，所以就只需要下载2。7.1版本插件。
我在网上找了很久的hadoop-eclipse-plugin插件，如果你们没找到可以留下你们的邮箱我单独发给你们。

安装插件在后面具体实验步骤的时候再来说明。

四、实验步骤

1、配置master服务器classpath

在终端输入如下命令：

vi /etc/profile

进入文件进行编辑，在该文件的最后加上如下信息：

JAVA_HOME=/usr/local/jdk1.7.0_79/
exportHADOOP_HOME=/usr/cstor/hadoop
exportJRE_HOME=/usr/local/jdk1.7.0_79//jre
exportPATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
exportCLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$HADOOP_HOME/share/hadoop/common/*:$HADOOP_HOME/share/hadoop/common/lib/*
exportPATH=$PATH:$HADOOP_HOME/bin
exportHADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
exportHADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib:$HADOOP_HOME/lib/native"

在这里插入图片描述

添加成功之后保存文件，然后再执行如下命令，让刚才设置的环境变量生效：

source /etc/profile

2、在master服务器编写HDFS写程序

在终端执行如下命令，然后编写HDFS写文件程序：

vi WriteFile.java

在文件内写入如下java程序代码然后保存退出。

importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FSDataOutputStream;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;publicclassWriteFile{publicstaticvoidmain(String[] args)throwsException{Configuration conf=newConfiguration();FileSystem hdfs =FileSystem.get(conf);Path dfs =newPath("/weather.txt");FSDataOutputStream outputStream = hdfs.create(dfs);
outputStream.writeUTF("nj 20161009 23\n");
outputStream.close();}}

在这里插入图片描述

3、编译并打包HDFS写程序

使用javac编译刚刚编写的java代码，并使用jar命令打包为hdpAction.jar。

编译代码：

javac WriteFile.java

打包代码：

jar -cvf hdpAction.jar WriteFile.class

在这里插入图片描述

4、执行HDFS写程序

在master虚拟机上使用如下命令执行hdpAction.jar：

hadoop jar ~/hdpAction.jar WriteFile

然后输入如下命令查看是否生成weather.txt文件：

hadoop fs -ls /

在这里插入图片描述

可以看出已经生成成功，我们来查看一下文件内容是否正确：

hadoop fs -cat /weather.txt

在这里插入图片描述

OK，结果是对的，我们继续下一步。

5、在master服务器编写HDFS读程序

直接在终端执行如下命令进行编写HDFS读文件程序操作：

vi ReadFile.java

然后填入如下java程序：

importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FSDataInputStream;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;publicclassReadFile{publicstaticvoidmain(String[] args)throwsIOException{Configuration conf =newConfiguration();Path inFile =newPath("/weather.txt");FileSystem hdfs =FileSystem.get(conf);FSDataInputStream inputStream = hdfs.open(inFile);System.out.println("myfile: "+ inputStream.readUTF());
    inputStream.close();}}

在这里插入图片描述

6、编译并打包HDFS读程序

再次使用刚刚的javac命令编译刚编写的java代码：

javac ReadFile.java

然后再次使用jar命令打包为hdpAction.jar：

jar -cvf hdpAction.jar ReadFile.class

在这里插入图片描述

7、执行HDFS读程序

再次在master虚拟机上使用hadoop.jar命令执行hdpAction.jar，查看程序运行结果：

hadoop jar ~/hdpAction.jar ReadFile

在这里插入图片描述

8、安装与配置Eclipse Hadoop插件

现在我们开始之前的插件安装步骤，将我们下载的jar包放在Eclipse下载路径的插件包下面，如图：

在这里插入图片描述

然后我们需要在本地配置Hadoop环境，用于加载hadoop目录中的jar包，我们需要下载这个文件：

在这里插入图片描述

可以去官网下载，我是在学校大数据平台上面直接下载的，比较方便。

然后解压该文件到自己指定的路径。

然后我们需要验证是否可以用Eclipse新建Hadoop项目，打开Eclipse软件，按照如下操作选择：

在这里插入图片描述

点击之后查看是否有Map/Reduce Project的选项。

在这里插入图片描述

这里如果没有出现这个选项的话，需要去eclipse安装路径下的configuration文件中把org.eclipse.update删除，这是因为在 org.eclipse.update 文件夹下记录了插件的历史更新情况，它只记忆了以前的插件更新情况，而你新安装的插件它并不记录，之后再重启Eclipse就会出现这个选项了。

第一次新建Map/Reduce Project项目时需要指定hadoop解压后的位置：

在这里插入图片描述

9、使用Eclipse开发并打包HDFS写文件程序

紧接着上面输入项目名：WriteHDFS，创建一个Map/Reduce项目。

然后新建WriteFile类并填入如下java代码：

importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FSDataOutputStream;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;publicclassWriteFile{publicstaticvoidmain(String[] args)throwsException{Configuration conf=newConfiguration();FileSystem hdfs =FileSystem.get(conf);Path dfs =newPath("/weather.txt");FSDataOutputStream outputStream = hdfs.create(dfs);
outputStream.writeUTF("nj 20161009 23\n");
outputStream.close();}}

如果你出现报错的话，就需要进行导包操作并且配置设置文件，在项目目录下面创建jar或者lib文件夹，添加如下两个包，如果你找不到的话我可以发给你们，留下邮箱就行：

在这里插入图片描述

然后在Eclipse左侧导航栏里右击该项目，选择导出，然后选择java，选择JAR 文件：

在这里插入图片描述

然后填写导出文件的路径和文件名，自定义：

在这里插入图片描述

然后点击下一步，再点击下一步，然后配置程序主类，这里必须要选择主类，我被这里坑了好久一直报错，学校大数据平台实验指导书和实验视频错了，必须要选择主类，不然后面上传到服务器就会一直报错。

在这里插入图片描述

然后选择完成就打包完成。

10、上传HDFS写文件程序jar包并执行

我们使用Xftp工具将刚刚生成的jar包上传至master服务器上：

在这里插入图片描述

然后在master服务器上使用如下命令执行hdpAction.jar：

hadoop jar ~/hdpAction.jar WriteFile

然后查看是否生成了weather.txt文件：

hadoop fs -ls /

在这里插入图片描述

如果已经生成，然后再查看文件内容是否正确：

hadoop fs -act /weather.txt

在这里插入图片描述

11、使用Eclipse开发并打包HDFS读文件程序

这里建项目的方法和前面的一样，我就不再详细的描述了。

新建项目名为ReadHDFS，然后再新建ReadFile类并编写如下代码：

importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FSDataInputStream;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;publicclassReadFile{publicstaticvoidmain(String[] args)throwsIOException{Configuration conf =newConfiguration();Path inFile =newPath("/weather.txt");FileSystem hdfs =FileSystem.get(conf);FSDataInputStream inputStream = hdfs.open(inFile);System.out.println("myfile: "+ inputStream.readUTF());
    inputStream.close();}}

然后和前面一样进行导包操作，再次强调要选择主类！

12、上传HDFS读文件程序jar包并执行

然后再次使用Xftp工具将包上传至master服务器上，并在master服务器上使用hadoop jar命令执行上传的包，查看程序运行结果：

在这里插入图片描述

五、补充一点

学校大数据平台实验视频说，因为大数据集群是使用的jdk1.7版本，必须要使用相同版本才行，如果你是jdk1.8版本，也不用重新配置1.7版本，只需要在Eclipse切换执行环境就行，具体操作如下：

右击项目然后依次选择选项：

在这里插入图片描述

然后将你们一开始的这个库移除，再点击添加库，这里我已经切换好了：

在这里插入图片描述

然后选择JRE系统库，点击下一步：

在这里插入图片描述

然后选择要切换的库版本，最后点击完成即可：

在这里插入图片描述

六、最后我想说

本期的实验到这里就结束了，因为中间出现了各种报错，所以这个实验做了很久，最后在不断摸索中终于是完成了。

通过本次实验我深刻明白了大数据环境的各种配置是真的麻烦，各种烦人的要求，哈哈哈，真的是太绝了，你们做大数据实验的时候一定要注意细节，仔细一点，不然很容易踩各种坑。

大概就说这么多了，一定要多去实战，不然你们都不知道会收获多少经验（坑），如果你们在实验过程中遇见了什么问题，欢迎大家来提问，我们一起讨论学习交流。

最后，后续我仍会继续更新有关大数据的实验，虽然过程比较辛苦，但收获满满。

标签： hdfs 大数据 hadoop

本文转载自: https://blog.csdn.net/qq_52417436/article/details/126957107
版权归原作者 -北天- 所有，如有侵权，请联系我们删除。

大数据技术基础实验四：HDFS实验——读写HDFS文件