0


大数据实验3 熟悉HDFS基本操作和编程实现

实验3 熟悉HDFS基本操作和编程实现

1、实验目的

(1)理解HDFS在Hadoop体系结构中的角色;

(2)熟练使用HDFS操作常用的Shell命令;

(3)熟悉HDFS操作常用的Java API。

2、实验平台

操作系统:Linux

Hadoop版本:2.6.0或以上版本

JDK版本:1.6或以上版本

Java IDE:Eclipse

3、实验内容和要求

(一)按照博客中的方式:

HDFS编程实践(Hadoop3.1.3)_厦大数据库实验室博客

熟悉HDFS的命令操作、安装Eclipse编程环境,熟悉编写HDFS功能代码,并打包成jar包运行。

(二)[选做]完成HDFS的编程任务

  1. 利用Hadoop提供的Shell命令完成以下任务:

  2. 向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,由用户指定是追加到原有文件末尾还是覆盖原有的文件;

  3. 从HDFS中下载指定文件,如果本地文件与要下载的文件名称相同,则自动对下载的文件重命名;

  4. 将HDFS中指定文件的内容输出到终端中;

  5. 显示HDFS中指定的文件的读写权限、大小、创建时间、路径等信息;

  6. 给定HDFS中某一个目录,输出该目录下的所有文件的读写权限、大小、创建时间、路径等信息,如果该文件是目录,则递归输出该目录下所有文件相关信息;

  7. 提供一个HDFS内的文件的路径,对该文件进行创建和删除操作。如果文件所在目录不存在,则自动创建目录;

  8. 提供一个HDFS的目录的路径,对该目录进行创建和删除操作。创建目录时,如果目录文件所在目录不存在则自动创建相应目录;删除目录时,由用户指定当该目录不为空时是否还删除该目录;

  9. 向HDFS中指定的文件追加内容,由用户指定内容追加到原有文件的开头或结尾;

  10. 删除HDFS中指定的文件;

  11. 删除HDFS中指定的目录,由用户指定目录中如果存在文件时是否删除目录;

  12. 在HDFS中,将文件从源路径移动到目的路径。

4.实验报告

《大数据技术原理与应用》上机实验3报告

题目:

熟悉HDFS基本操作和编程实现

姓名

陈雪蕊

日期

2024.10.27

实验环境:

操作系统:Linux

Hadoop版本:2.6.0或以上版本

JDK版本:1.6或以上版本

Java IDE:Eclipse

实验内容与完成情况:

  • 按照博客中的方式:

HDFS编程实践(Hadoop3.1.3)_厦大数据库实验室博客

熟悉HDFS的命令操作、安装Eclipse编程环境,熟悉编写HDFS功能代码,并打包成jar包运行。

  1. 在学习HDFS编程实践前,我们需要启动Hadoop(版本是Hadoop3.1.3)。执行如下命令: cd /usr/local/hadoop./sbin/start-dfs.sh #启动hadoop

  1. 利用Shell命令与HDFS进行交互: 1. Hadoop支持很多Shell命令,其中fs是HDFS最常用的命令,利用fs可以查看HDFS文件系统的目录结构、上传和下载数据、创建文件等。2. 注意: 教材《大数据技术原理与应用》的命令是以"./bin/hadoop dfs"开头的Shell命令方式,实际上有三种shell命令方式。 - hadoop fs —— 适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统- hadoop dfs —— 只能适用于HDFS文件系统- hdfs dfs —— 跟hadoop dfs的命令作用一样,也只能适用于HDFS文件系统3. 我们可以在终端输入如下命令,查看fs总共支持了哪些命令: ./bin/hadoop fs

      • 查看具体某个命令的作用,比如:查看put命令如何使用- ./bin/hadoop fs -help put

    1. 目录操作 - 需要注意的是,Hadoop系统安装好以后,第一次使用HDFS时,需要首先在HDFS中创建用户目录。本教程全部采用hadoop用户登录Linux系统,因此,需要在HDFS中为hadoop用户创建一个用户目录,命令如下: cd /usr/local/hadoop./bin/hdfs dfs -mkdir -p /user/hadoop
  1. 该命令中表示在HDFS中创建一个“/user/hadoop”目录 1. “–mkdir”是创建目录的操作,2. “-p”表示如果是多级目录,则父目录和子目录一起创建,这里“/user/hadoop”就是一个多级目录,因此必须使用参数“-p”,否则会出错。3. “/user/hadoop”目录就成为hadoop用户对应的用户目录, - 可以使用如下命令显示HDFS中与当前用户hadoop对应的用户目录下的内容: ./bin/hdfs dfs -ls .

        1. 该命令中,“-ls”表示列出HDFS某个目录下的所有内容,“.”表示HDFS中的当前用户目录,也就是“/user/hadoop”目录;2. 因此,上面的命令和下面的命令是等价的:
  1. ./bin/hdfs dfs -ls /user/hadoop - - 列出HDFS上的所有目录:(Ubuntu要加/)

  2. ./bin/hdfs dfs -ls - - 创建一个input目录:

  3. ./bin/hdfs dfs -mkdir input 1. 1. 1. 在创建个input目录时,采用了相对路径形式,实际上,这个input目录创建成功以后,它在HDFS中的完整路径是“/user/hadoop/input”。如果要在HDFS的根目录下创建一个名称为input的目录,则需要使用如下命令:2. ./bin/hdfs dfs -mkdir /input

      • 可以使用rm命令删除一个目录,比如,可以使用如下命令删除刚才在HDFS中创建的“/input”目录(不是“/user/hadoop/input”目录):
  1. ./bin/hdfs dfs -rm -r /input 1. 1. 1. 上面命令中,“-r”参数表示如果删除“/input”目录及其子目录下的所有内容,如果要删除的一个目录包含了子目录,则必须使用“-r”参数,否则会执行失败。

  1. 文件操作: 1. 在实际应用中,经常需要从本地文件系统向HDFS中上传文件,或者把HDFS中的文件下载到本地文件系统中。2. 首先,使用vim编辑器,在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件myLocalFile.txt,里面可以随意输入一些单词,比如,输入如下三行:

Hadoop

Spark

XMU DBLAB

    1. 然后,可以使用如下命令把本地文件系统的“/home/hadoop/myLocalFile.txt”上传到HDFS中的当前用户目录的input目录下,也就是上传到HDFS的“/user/hadoop/input/”目录下:
  1. ./bin/hdfs dfs -put /home/hadoop/myLocalFile.txt input

    1. 可以使用ls命令查看一下文件是否成功上传到HDFS中,具体如下:
  1. ./bin/hdfs dfs -ls input 1. 该命令执行后会显示类似如下的信息:

Found 1 items

-rw-r--r-- 1 hadoop supergroup 36 2017-01-02 23:55 input/ myLocalFile.txt

    1. 下面使用如下命令查看HDFS中的myLocalFile.txt这个文件的内容:
  1. ./bin/hdfs dfs -cat input/myLocalFile.txt

    1. 下面把HDFS中的myLocalFile.txt文件下载到本地文件系统中的“/home/hadoop/下载/”这个目录下,命令如下:(我这里是“Downloads”不是“下载”)
  1. ./bin/hdfs dfs -get input/myLocalFile.txt /home/hadoop/下载
  2. ./bin/hdfs dfs -get input/myLocalFile.txt /home/hadoop/Downloads

    1. 可以使用如下命令,到本地文件系统查看下载下来的文件myLocalFile.txt:
  1. cd ~
  2. cd 下载(Downloads)
  3. ls
  4. cat myLocalFile.txt

    1. 最后,了解一下如何把文件从HDFS中的一个目录拷贝到HDFS中的另外一个目录。比如,如果要把HDFS的“/user/hadoop/input/myLocalFile.txt”文件,拷贝到HDFS的另外一个目录“/input”中(注意,这个input目录位于HDFS根目录下),可以使用如下命令:
  1. ./bin/hdfs dfs -cp input/myLocalFile.txt /input/(这里加了个’/’)

  1. 利用Web界面管理HDFS 1. 打开Linux自带的Firefox浏览器,点击此链接HDFS的Web界面,即可看到HDFS的web管理界面。WEB界面的访问地址是http://localhost:9870。

  1. 利用Java API与HDFS进行交互 1. Hadoop不同的文件系统之间通过调用Java API进行交互,上面介绍的Shell命令,本质上就是Java API的应用。下面提供了Hadoop官方的Hadoop API文档,想要深入学习Hadoop,可以访问如下网站,查看各个API的功能。

  2. Apache Hadoop Main 3.4.1 API 1. 利用Java API进行交互,需要利用软件Eclipse编写Java程序。 - 在Ubuntu中安装Eclipse 1. 压缩包下载到Windows之后拖拽放入Linux的~/Downloads/目录下

        1. 解压到指定目录:

cd ~/Downloads

sudo tar -zxvf ./eclipse-4.7.0-linux.gtk.x86_64.tar.gz -C /usr/local

        1. 执行如下命令启动Eclipse:

cd /usr/local/eclipse

./eclipse (切换到root用户执行)

      • 使用Eclipse开发调试HDFS Java程序:

现在要执行的任务是:假设在目录“hdfs://localhost:9000/user/hadoop”下面有几个文件,分别是file1.txt、file2.txt、file3.txt、file4.abc和file5.abc,这里需要从该目录中过滤出所有后缀名不为“.abc”的文件,对过滤之后的文件进行读取,并将这些文件的内容合并到文件“hdfs://localhost:9000/user/hadoop/merge.txt”中。

        1. 在Eclipse中创建项目 1. 启动Eclipse。当Eclipse启动以后,会弹出如下图所示界面,提示设置工作空间(workspace)。2. 可以直接采用默认的设置“/home/hadoop/workspace”,点击“OK”按钮。可以看出,由于当前是采用hadoop用户登录了Linux系统,因此,默认的工作空间目录位于hadoop用户目录“/home/hadoop”下。3. 选择“File-->New-->Java Project”菜单,开始创建一个Java工程,会弹出如下图所示界面。

          1. 在“Project name”后面输入工程名称“HDFSExample”,选中“Use default location”,让这个Java工程的所有文件都保存到“/home/hadoop/workspace/HDFSExample”目录下。在“JRE”这个选项卡中,可以选择当前的Linux系统中已经安装好的JDK,比如jdk1.8.0_162。然后,点击界面底部的“Next>”按钮,进入下一步的设置。

        1. 为项目添加需要用到的JAR包 1. 需要在这个界面中加载该Java工程所需要用到的JAR包,这些JAR包中包含了可以访问HDFS的Java API。这些JAR包都位于Linux系统的Hadoop安装目录下,对于本教程而言,就是在“/usr/local/hadoop/share/hadoop”目录下。点击界面中的“Libraries”选项卡,然后,点击界面右侧的“Add External JARs…”按钮,会弹出如下图所示界面。2. 在该界面中,上面的一排目录按钮(即“usr”、“local”、“hadoop”、“share”、“hadoop”和“common”),当点击某个目录按钮时,就会在下面列出该目录的内容。 为了编写一个能够与HDFS交互的Java应用程序,一般需要向Java工程中添加以下JAR包: (1)“/usr/local/hadoop/share/hadoop/common”目录下的所有JAR包,包括hadoop-common-3.1.3.jar、hadoop-common-3.1.3-tests.jar、haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar,注意,不包括目录jdiff、lib、sources和webapps; (2)“/usr/local/hadoop/share/hadoop/common/lib”目录下的所有JAR包; (3)“/usr/local/hadoop/share/hadoop/hdfs”目录下的所有JAR包,注意,不包括目录jdiff、lib、sources和webapps; (4)“/usr/local/hadoop/share/hadoop/hdfs/lib”目录下的所有JAR包。 比如,如果要把“/usr/local/hadoop/share/hadoop/common”目录下的hadoop-common-3.1.3.jar、hadoop-common-3.1.3-tests.jar、haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar添加到当前的Java工程中,可以在界面中点击目录按钮,进入到common目录,然后,界面会显示出common目录下的所有内容(如下图所示)。

          1. 请在界面中用鼠标点击选中hadoop-common-3.1.3.jar、hadoop-common-3.1.3-tests.jar、haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar(不要选中目录jdiff、lib、sources和webapps),然后点击界面右下角的“确定”按钮,就可以把这两个JAR包增加到当前Java工程中,出现的界面如下图所示。2. 从这个界面中可以看出,hadoop-common-3.1.3.jar、hadoop-common-3.1.3-tests.jar、haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar已经被添加到当前Java工程中。然后,按照类似的操作方法,可以再次点击“Add External JARs…”按钮,把剩余的其他JAR包都添加进来。需要注意的是,当需要选中某个目录下的所有JAR包时,可以使用“Ctrl+A”组合键进行全选操作。全部添加完毕以后,就可以点击界面右下角的“Finish”按钮,完成Java工程HDFSExample的创建。

        1. 编写Java应用程序 1. 在Eclipse工作界面左侧的“Package Explorer”面板中(如下图所示),找到刚才创建好的工程名称“HDFSExample”,然后在该工程名称上点击鼠标右键,在弹出的菜单中选择“New-->Class”菜单。2. 在该界面中,只需要在“Name”后面输入新建的Java类文件的名称,这里采用名称“MergeFile”,其他都可以采用默认设置,然后,点击界面右下角“Finish”按钮,出现如下图所示界面。

          1. 可以看出,Eclipse自动创建了一个名为“MergeFile.java”的源代码文件,请在该文件中输入以下代码:
import java.io.IOException;

import java.io.PrintStream;

import java.net.URI;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.*;

/**

 * 过滤掉文件名满足特定条件的文件

 */

class MyPathFilter implements PathFilter {

     String reg = null;

     MyPathFilter(String reg) {

          this.reg = reg;

     }

     public boolean accept(Path path) {

        if (!(path.toString().matches(reg)))

            return true;

        return false;

    }

}

/***

 * 利用FSDataOutputStream和FSDataInputStream合并HDFS中的文件

 */

public class MergeFile {

    Path inputPath = null; //待合并的文件所在的目录的路径

    Path outputPath = null; //输出文件的路径

    public MergeFile(String input, String output) {

        this.inputPath = new Path(input);

        this.outputPath = new Path(output);

    }

    public void doMerge() throws IOException {

        Configuration conf = new Configuration();

        conf.set("fs.defaultFS","hdfs://localhost:9000");

          conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");

        FileSystem fsSource = FileSystem.get(URI.create(inputPath.toString()), conf);

        FileSystem fsDst = FileSystem.get(URI.create(outputPath.toString()), conf);

                //下面过滤掉输入目录中后缀为.abc的文件

        FileStatus[] sourceStatus = fsSource.listStatus(inputPath,

                new MyPathFilter(".*\\.abc"));

        FSDataOutputStream fsdos = fsDst.create(outputPath);

        PrintStream ps = new PrintStream(System.out);

        //下面分别读取过滤之后的每个文件的内容,并输出到同一个文件中

        for (FileStatus sta : sourceStatus) {

            //下面打印后缀不为.abc的文件的路径、文件大小

            System.out.print("路径:" + sta.getPath() + "    文件大小:" + sta.getLen()

                    + "   权限:" + sta.getPermission() + "   内容:");

            FSDataInputStream fsdis = fsSource.open(sta.getPath());

            byte[] data = new byte[1024];

            int read = -1;

            while ((read = fsdis.read(data)) > 0) {

                ps.write(data, 0, read);

                fsdos.write(data, 0, read);

            }

            fsdis.close();          

        }

        ps.close();

        fsdos.close();

    }

    public static void main(String[] args) throws IOException {

        MergeFile merge = new MergeFile(

                "hdfs://localhost:9000/user/hadoop/",

                "hdfs://localhost:9000/user/hadoop/merge.txt");

        merge.doMerge();

    }

}
        1. 编译运行程序 1. 在开始编译运行程序之前,请一定确保Hadoop已经启动运行,如果还没有启动,需要打开一个Linux终端,输入以下命令启动Hadoop:

cd /usr/local/hadoop

./sbin/start-dfs.sh

          1. 然后,要确保HDFS的“/user/hadoop”目录下已经存在file1.txt、file2.txt、file3.txt、file4.abc和file5.abc,每个文件里面有内容。这里,假设文件内容如下: file1.txt的内容是: this is file1.txt file2.txt的内容是: this is file2.txt file3.txt的内容是: this is file3.txt file4.abc的内容是: this is file4.abc file5.abc的内容是: this is file5.abc

上传文件到HDFS:

确保本地系统中存在file1.txt、file2.txt、file3.txt、file4.abc和file5.abc这五个文件,并且这些文件有内容。如果不存在,可以使用以下命令创建并添加内容,例如:

echo "This is file1" > file1.txt

echo "This is file2" > file2.txt

echo "This is file3" > file3.txt

echo "This is file4" > file4.abc

echo "This is file5" > file5.abc

使用hdfs dfs -put命令将本地文件上传到HDFS的/user/hadoop目录下:

# 上传file1.txt

hadoop fs -put file1.txt /user/hadoop/

# 上传file2.txt

hadoop fs -put file2.txt /user/hadoop/

# 上传file3.txt

hadoop fs -put file3.txt /user/hadoop/

# 上传file4.abc

hadoop fs -put file4.abc /user/hadoop/

# 上传file5.abc

hadoop fs -put file5.abc /user/hadoop/

验证文件是否成功上传:

hadoop fs -ls /user/hadoop

          1. 现在就可以编译运行上面编写的代码。可以直接点击Eclipse工作界面上部的运行程序的快捷按钮,当把鼠标移动到该按钮上时,在弹出的菜单中选择“Run As”,继续在弹出来的菜单中选择“Java Application”,如下图所示。2. 在该界面中,点击界面右下角的“OK”按钮,开始运行程序。程序运行结束后,会在底部的“Console”面板中显示运行结果信息(如下图所示)。同时,“Console”面板中还会显示一些类似“log4j:WARN…”的警告信息,可以不用理会。3. 如果程序运行成功,这时,可以到HDFS中查看生成的merge.txt文件,比如,可以在Linux终端中执行如下命令:
cd /usr/local/hadoop

./bin/hdfs dfs -ls /user/hadoop

./bin/hdfs dfs -cat /user/hadoop/merge.txt

可以看到如下结果:

this is file1.txt

this is file2.txt

this is file3.txt

  1. 应用程序的部署:下面介绍如何把Java应用程序生成JAR包,部署到Hadoop平台上运行。 1. 首先,在Hadoop安装目录下新建一个名称为myapp的目录,用来存放我们自己编写的Hadoop应用程序,可以在Linux的终端中执行如下命令:
cd /usr/local/hadoop

mkdir myapp
    1. 然后,请在Eclipse工作界面左侧的“Package Explorer”面板中,在工程名称“HDFSExample”上点击鼠标右键,在弹出的菜单中选择“Export”。2. 在弹出的界面中,选择“Java-Runnable JAR file”,然后,点击“Next>”按钮。3. 在弹出的界面中,“Launch configuration”用于设置生成的JAR包被部署启动时运行的主类,需要在下拉列表中选择刚才配置的类“MergeFile-HDFSExample”。在“Export destination”中需要设置JAR包要输出保存到哪个目录,比如,这里设置为“/usr/local/hadoop/myapp/HDFSExample.jar”。在“Library handling”下面选择“Extract required libraries into generated JAR”。然后,点击“Finish”按钮,会出现警告页面,可以忽略该界面的信息,直接点击界面右下角的“OK”按钮,启动打包过程。4. 打包过程结束后,也会出现一个警告信息界面,可以忽略该界面的信息,直接点击界面右下角的“OK”按钮。至此,已经顺利把HDFSExample工程打包生成了HDFSExample.jar。可以到Linux系统中查看一下生成的HDFSExample.jar文件,可以在Linux的终端中执行如下命令:
cd /usr/local/hadoop/myapp

ls
    1. 可以看到,“/usr/local/hadoop/myapp”目录下已经存在一个HDFSExample.jar文件。

    1. 由于之前已经运行过一次程序,已经生成了merge.txt,因此,需要首先执行如下命令删除该文件:
cd /usr/local/hadoop

./bin/hdfs dfs -rm /user/hadoop/merge.txt

    1. 现在,就可以在Linux系统中,使用hadoop jar命令运行程序,命令如下:
cd /usr/local/hadoop

./bin/hadoop jar ./myapp/HDFSExample.jar
    1. 上面程序执行结束以后,可以到HDFS中查看生成的merge.txt文件,比如,可以在Linux终端中执行如下命令:
cd /usr/local/hadoop

./bin/hdfs dfs -ls /user/hadoop

./bin/hdfs dfs -cat /user/hadoop/merge.txt

可以看到如下结果:

this is file1.txt

this is file2.txt

this is file3.txt

  • [选做]完成HDFS的编程任务

利用Hadoop提供的Shell命令完成以下任务:

向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,由用户指定是追加到原有文件末尾还是覆盖原有的文件;

上传文件,如果文件已存在,使用-o选项覆盖,使用-a选项追加:

hdfs dfs -put -f merge.txt /user/hadoop/localfile/

hdfs dfs -appendToFile merge.txt /user/hadoop/localfile/merge.txt

从HDFS中下载指定文件,如果本地文件与要下载的文件名称相同,则自动对下载的文件重命名;

hdfs dfs -getmerge /user/hadoop/localfile/merge.txt ./

将HDFS中指定文件的内容输出到终端中;

使用cat命令:

hdfs dfs -cat /user/hadoop/localfile/merge.txt

显示HDFS中指定的文件的读写权限、大小、创建时间、路径等信息;

使用ls命令查看文件详细信息:

hdfs dfs -ls /user/hadoop/localfile/merge.txt

给定HDFS中某一个目录,输出该目录下的所有文件的读写权限、大小、创建时间、路径等信息,如果该文件是目录,则递归输出该目录下所有文件相关信息;

使用ls -R递归显示目录下所有文件的信息:

hdfs dfs -ls -R /user/hadoop/localfile

提供一个HDFS内的文件的路径,对该文件进行创建和删除操作。如果文件所在目录不存在,则自动创建目录;

  1. 使用-put命令上传文件:(实测做不到):

hdfs dfs -put -p merge.txt /user/hadoop/targetdir/touchfile.txt

  1. 删除文件:

hdfs dfs -rm /user/hadoop/localfile/merge.txt

提供一个HDFS的目录的路径,对该目录进行创建和删除操作。创建目录时,如果目录文件所在目录不存在则自动创建相应目录;删除目录时,由用户指定当该目录不为空时是否还删除该目录;

  1. 创建目录(如果父目录不存在会自动创建):

hdfs dfs -mkdir -p /user/hadoop/newDir/newDir2

  1. 删除目录,如果需要递归删除非空目录,使用-R选项:

hdfs dfs -rmdir /user/hadoop/newDir/newDir2

hdfs dfs -rm -r /user/hadoop/newDir

向HDFS中指定的文件追加内容,由用户指定内容追加到原有文件的开头或结尾;

使用appendToFile命令追加内容:

hdfs dfs -appendToFile merge.txt /user/hadoop/localfile/merge.txt

(要追加到文件开头,需要先拷贝到临时文件,修改临时文件内容,然后覆盖原文件,HDFS 不支持直接追加到文件开头。)

删除HDFS中指定的文件;

使用rm命令:

hdfs dfs -rm /user/hadoop/merge.txt

删除HDFS中指定的目录,由用户指定目录中如果存在文件时是否删除目录;

如果目录不为空,需要使用-skipTrash选项和-R选项来强制删除:

hdfs dfs -rm -r -skipTrash /user/hadoop/localfile

在HDFS中,将文件从源路径移动到目的路径。

使用mv命令:

hdfs dfs -mv /user/hadoop/file1.txt /user/hadoop/mvfile.txt

出现的问题:

  1. Hadoop 的配置文件中未定义 HDFS_NAMENODE_USER、HDFS_DATANODE_USER 和 HDFS_SECONDARYNAMENODE_USER 环境变量。这些变量指定了运行 NameNode、DataNode 和 SecondaryNameNode 的用户。

  1. 执行./bin/hdfs dfs -ls的时候报错——错误信息:ls: '.': No such file or directory

  1. hdfs使用cp命令时发现input是个文件而不是目录

  1. hadoop用户执行./eclipse报错:拒绝连接

  1. ResourceManager和NodeManager未启动

解决方案(列出遇到的问题和解决办法,列出没有解决的问题):

已解决的问题:

问题一:Hadoop 的配置文件中未定义 HDFS_NAMENODE_USER、HDFS_DATANODE_USER 和 HDFS_SECONDARYNAMENODE_USER 环境变量。

解决方法:

  1. 编辑 hadoop-env.sh 文件(/usr/local/hadoop/etc/hadoop/hadoop-env.sh)

  2. 在文件末尾添加以下几行:(把hdfs替换成实际使用的用户名——我替换成了hadoop,root没试过,也可以useradd一个hdfs用户)

  3. export HDFS_NAMENODE_USER=hdfs

  4. export HDFS_DATANODE_USER=hdfs

  5. export HDFS_SECONDARYNAMENODE_USER=hdfs

  1. 保存并关闭文件。

  2. 设置正确的权限:确保 Hadoop 目录的所有权和权限正确。通常,你会将这些目录的所有权设置为 hdfs(hadoop) 用户和组。

  3. sudo chown -R hdfs:hdfs /usr/local/hadoop

  4. sudo chown -R hadoop:hadoop /usr/local/hadoop

  5. 重新启动 Hadoop 服务:

  6. ./sbin/start-dfs.sh

问题二:执行./bin/hdfs dfs -ls的时候报错——错误信息:ls: '.': No such file or directory

解决方法:

执行su hadoop,从root用户切换到hadoop用户

问题三:hdfs使用cp命令时发现input是个文件而不是目录

解决方法:重命名或删除现有文件

删除现有的 /input 文件

./bin/hdfs dfs -rm /input

或者重命名现有的 /input 文件

./bin/hdfs dfs -mv /input /input_backup

然后重新创建 /input 目录并执行拷贝操作:

创建 /input 目录

./bin/hdfs dfs -mkdir -p /input

拷贝文件到 /input 目录

./bin/hdfs dfs -cp /user/hadoop/input/myLocalFile.txt /input/

删除现有的 /input 文件

./bin/hdfs dfs -rm /input

或者重命名现有的 /input 文件

./bin/hdfs dfs -mv /input /input_backup

然后重新创建 /input 目录并执行拷贝操作:

创建 /input 目录

./bin/hdfs dfs -mkdir -p /input

拷贝文件到 /input 目录

./bin/hdfs dfs -cp /user/hadoop/input/myLocalFile.txt /input/

问题四:作为hadoop用户直接执行./eclipse报错

解决方法:

1、尝试失败:执行sudo ./eclipse命令,会提示JRE路径出错

2、失败:切换成root用户后直接执行./eclipse

但是后面代码编译会有问题,一直报错。

3、最后解决:以 root 用户运行“xhost +”命令,允许所有用户连接到 X 服务器,然后切换回hadoop用户执行./eclipse命令

问题五:ResourceManager和NodeManager未启动

Ps:使用jps命令可以检查各个进程是否已经成功启动。如果输出结果中包含以下信息,则说明相应的服务正在运行:

jps | grep NameNode

jps | grep DataNode

jps | grep ResourceManager

jps | grep NodeManager

为了确保Hadoop集群正常运行,特别是对于MapReduce作业的执行,需要启动ResourceManager和NodeManager。以下是启动这两个组件的步骤:

启动ResourceManager和NodeManager:

  1. 进入Hadoop目录:

cd /usr/local/hadoop

  1. 启动YARN服务: 1. 执行start-yarn.sh脚本来启动ResourceManager和NodeManager:

./sbin/start-yarn.sh

需要设置YARN相关的环境变量:

  • 编辑配置文件: 1. 打开Hadoop的配置文件(通常位于/etc/hadoop/hadoop-env.sh或$HADOOP_HOME/etc/hadoop/hadoop-env.sh)。

~/.bashrc文件内容:

执行find / -name 'hadoop-env.sh'查找配置文件:

    1. 如果文件不存在,您可以创建它并添加以下内容:

export HADOOP_USER_NAME=hadoop

    1. 确保HADOOP_USER_NAME的值是一个非root用户,该用户应该具备执行YARN相关操作的权限。

  • 验证配置: 1. 保存配置文件后,重新加载环境变量:

source $HADOOP_HOME/etc/hadoop/hadoop-env.sh

  • 重新启动YARN服务: > 1. 进入Hadoop的sbin目录:> 2. cd /usr/local/hadoop/sbin> 3. 停止YARN服务:(切换到hadoop用户)> 4. ./stop-yarn.sh> 5. 启动YARN服务:> 6. ./start-yarn.sh

  1. 检查服务状态:再次使用jps命令检查ResourceManager和NodeManager是否已经成功启动:

jps | grep ResourceManager

jps | grep NodeManager

如果以上所有命令都输出结果,则说明ResourceManager和NodeManager已经成功启动。

未解决的问题:

标签: 大数据 hdfs hadoop

本文转载自: https://blog.csdn.net/m0_73939014/article/details/143315763
版权归原作者 ywmzxysjdsjlcf 所有, 如有侵权,请联系我们删除。

“大数据实验3 熟悉HDFS基本操作和编程实现”的评论:

还没有评论