实验3 熟悉HDFS基本操作和编程实现
1、实验目的
(1)理解HDFS在Hadoop体系结构中的角色;
(2)熟练使用HDFS操作常用的Shell命令;
(3)熟悉HDFS操作常用的Java API。
2、实验平台
操作系统:Linux
Hadoop版本:2.6.0或以上版本
JDK版本:1.6或以上版本
Java IDE:Eclipse
3、实验内容和要求
(一)按照博客中的方式:
HDFS编程实践(Hadoop3.1.3)_厦大数据库实验室博客
熟悉HDFS的命令操作、安装Eclipse编程环境,熟悉编写HDFS功能代码,并打包成jar包运行。
(二)[选做]完成HDFS的编程任务
利用Hadoop提供的Shell命令完成以下任务:
向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,由用户指定是追加到原有文件末尾还是覆盖原有的文件;
从HDFS中下载指定文件,如果本地文件与要下载的文件名称相同,则自动对下载的文件重命名;
将HDFS中指定文件的内容输出到终端中;
显示HDFS中指定的文件的读写权限、大小、创建时间、路径等信息;
给定HDFS中某一个目录,输出该目录下的所有文件的读写权限、大小、创建时间、路径等信息,如果该文件是目录,则递归输出该目录下所有文件相关信息;
提供一个HDFS内的文件的路径,对该文件进行创建和删除操作。如果文件所在目录不存在,则自动创建目录;
提供一个HDFS的目录的路径,对该目录进行创建和删除操作。创建目录时,如果目录文件所在目录不存在则自动创建相应目录;删除目录时,由用户指定当该目录不为空时是否还删除该目录;
向HDFS中指定的文件追加内容,由用户指定内容追加到原有文件的开头或结尾;
删除HDFS中指定的文件;
删除HDFS中指定的目录,由用户指定目录中如果存在文件时是否删除目录;
在HDFS中,将文件从源路径移动到目的路径。
4.实验报告
《大数据技术原理与应用》上机实验3报告
题目:
熟悉HDFS基本操作和编程实现
姓名
陈雪蕊
日期
2024.10.27
实验环境:
操作系统:Linux
Hadoop版本:2.6.0或以上版本
JDK版本:1.6或以上版本
Java IDE:Eclipse
实验内容与完成情况:
- 按照博客中的方式:
HDFS编程实践(Hadoop3.1.3)_厦大数据库实验室博客
熟悉HDFS的命令操作、安装Eclipse编程环境,熟悉编写HDFS功能代码,并打包成jar包运行。
- 在学习HDFS编程实践前,我们需要启动Hadoop(版本是Hadoop3.1.3)。执行如下命令:
cd /usr/local/hadoop./sbin/start-dfs.sh #启动hadoop
- 利用Shell命令与HDFS进行交互: 1. Hadoop支持很多Shell命令,其中fs是HDFS最常用的命令,利用fs可以查看HDFS文件系统的目录结构、上传和下载数据、创建文件等。2. 注意: 教材《大数据技术原理与应用》的命令是以"./bin/hadoop dfs"开头的Shell命令方式,实际上有三种shell命令方式。 - hadoop fs —— 适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统- hadoop dfs —— 只能适用于HDFS文件系统- hdfs dfs —— 跟hadoop dfs的命令作用一样,也只能适用于HDFS文件系统3. 我们可以在终端输入如下命令,查看fs总共支持了哪些命令:
./bin/hadoop fs
- 查看具体某个命令的作用,比如:查看put命令如何使用-
./bin/hadoop fs -help put
- 查看具体某个命令的作用,比如:查看put命令如何使用-
- 目录操作 - 需要注意的是,Hadoop系统安装好以后,第一次使用HDFS时,需要首先在HDFS中创建用户目录。本教程全部采用hadoop用户登录Linux系统,因此,需要在HDFS中为hadoop用户创建一个用户目录,命令如下:
cd /usr/local/hadoop./bin/hdfs dfs -mkdir -p /user/hadoop
- 目录操作 - 需要注意的是,Hadoop系统安装好以后,第一次使用HDFS时,需要首先在HDFS中创建用户目录。本教程全部采用hadoop用户登录Linux系统,因此,需要在HDFS中为hadoop用户创建一个用户目录,命令如下:
- 该命令中表示在HDFS中创建一个“/user/hadoop”目录 1. “–mkdir”是创建目录的操作,2. “-p”表示如果是多级目录,则父目录和子目录一起创建,这里“/user/hadoop”就是一个多级目录,因此必须使用参数“-p”,否则会出错。3. “/user/hadoop”目录就成为hadoop用户对应的用户目录, - 可以使用如下命令显示HDFS中与当前用户hadoop对应的用户目录下的内容:
./bin/hdfs dfs -ls
.
- 该命令中,“-ls”表示列出HDFS某个目录下的所有内容,“.”表示HDFS中的当前用户目录,也就是“/user/hadoop”目录;2. 因此,上面的命令和下面的命令是等价的:
./bin/hdfs dfs -ls /user/hadoop - - 列出HDFS上的所有目录:(Ubuntu要加/)
./bin/hdfs dfs -ls - - 创建一个input目录:
./bin/hdfs dfs -mkdir input 1. 1. 1. 在创建个input目录时,采用了相对路径形式,实际上,这个input目录创建成功以后,它在HDFS中的完整路径是“/user/hadoop/input”。如果要在HDFS的根目录下创建一个名称为input的目录,则需要使用如下命令:2. ./bin/hdfs dfs -mkdir /input
- 可以使用rm命令删除一个目录,比如,可以使用如下命令删除刚才在HDFS中创建的“/input”目录(不是“/user/hadoop/input”目录):
- ./bin/hdfs dfs -rm -r /input 1. 1. 1. 上面命令中,“-r”参数表示如果删除“/input”目录及其子目录下的所有内容,如果要删除的一个目录包含了子目录,则必须使用“-r”参数,否则会执行失败。
- 文件操作: 1. 在实际应用中,经常需要从本地文件系统向HDFS中上传文件,或者把HDFS中的文件下载到本地文件系统中。2. 首先,使用vim编辑器,在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件myLocalFile.txt,里面可以随意输入一些单词,比如,输入如下三行:
Hadoop
Spark
XMU DBLAB
- 然后,可以使用如下命令把本地文件系统的“/home/hadoop/myLocalFile.txt”上传到HDFS中的当前用户目录的input目录下,也就是上传到HDFS的“/user/hadoop/input/”目录下:
- ./bin/hdfs dfs -put /home/hadoop/myLocalFile.txt input
- 可以使用ls命令查看一下文件是否成功上传到HDFS中,具体如下:
- ./bin/hdfs dfs -ls input 1. 该命令执行后会显示类似如下的信息:
Found 1 items
-rw-r--r-- 1 hadoop supergroup 36 2017-01-02 23:55 input/ myLocalFile.txt
- 下面使用如下命令查看HDFS中的myLocalFile.txt这个文件的内容:
- ./bin/hdfs dfs -cat input/myLocalFile.txt
- 下面把HDFS中的myLocalFile.txt文件下载到本地文件系统中的“/home/hadoop/下载/”这个目录下,命令如下:(我这里是“Downloads”不是“下载”)
- ./bin/hdfs dfs -get input/myLocalFile.txt /home/hadoop/下载
- ./bin/hdfs dfs -get input/myLocalFile.txt /home/hadoop/Downloads
- 可以使用如下命令,到本地文件系统查看下载下来的文件myLocalFile.txt:
- cd ~
- cd 下载(Downloads)
- ls
- cat myLocalFile.txt
- 最后,了解一下如何把文件从HDFS中的一个目录拷贝到HDFS中的另外一个目录。比如,如果要把HDFS的“/user/hadoop/input/myLocalFile.txt”文件,拷贝到HDFS的另外一个目录“/input”中(注意,这个input目录位于HDFS根目录下),可以使用如下命令:
- ./bin/hdfs dfs -cp input/myLocalFile.txt /input/(这里加了个’/’)
- 利用Web界面管理HDFS 1. 打开Linux自带的Firefox浏览器,点击此链接HDFS的Web界面,即可看到HDFS的web管理界面。WEB界面的访问地址是http://localhost:9870。
利用Java API与HDFS进行交互 1. Hadoop不同的文件系统之间通过调用Java API进行交互,上面介绍的Shell命令,本质上就是Java API的应用。下面提供了Hadoop官方的Hadoop API文档,想要深入学习Hadoop,可以访问如下网站,查看各个API的功能。
Apache Hadoop Main 3.4.1 API 1. 利用Java API进行交互,需要利用软件Eclipse编写Java程序。 - 在Ubuntu中安装Eclipse 1. 压缩包下载到Windows之后拖拽放入Linux的~/Downloads/目录下
- 解压到指定目录:
cd ~/Downloads
sudo tar -zxvf ./eclipse-4.7.0-linux.gtk.x86_64.tar.gz -C /usr/local
- 执行如下命令启动Eclipse:
cd /usr/local/eclipse
./eclipse (切换到root用户执行)
- 使用Eclipse开发调试HDFS Java程序:
现在要执行的任务是:假设在目录“hdfs://localhost:9000/user/hadoop”下面有几个文件,分别是file1.txt、file2.txt、file3.txt、file4.abc和file5.abc,这里需要从该目录中过滤出所有后缀名不为“.abc”的文件,对过滤之后的文件进行读取,并将这些文件的内容合并到文件“hdfs://localhost:9000/user/hadoop/merge.txt”中。
- 在Eclipse中创建项目 1. 启动Eclipse。当Eclipse启动以后,会弹出如下图所示界面,提示设置工作空间(workspace)。2. 可以直接采用默认的设置“/home/hadoop/workspace”,点击“OK”按钮。可以看出,由于当前是采用hadoop用户登录了Linux系统,因此,默认的工作空间目录位于hadoop用户目录“/home/hadoop”下。3. 选择“File-->New-->Java Project”菜单,开始创建一个Java工程,会弹出如下图所示界面。
- 在“Project name”后面输入工程名称“HDFSExample”,选中“Use default location”,让这个Java工程的所有文件都保存到“/home/hadoop/workspace/HDFSExample”目录下。在“JRE”这个选项卡中,可以选择当前的Linux系统中已经安装好的JDK,比如jdk1.8.0_162。然后,点击界面底部的“Next>”按钮,进入下一步的设置。
- 为项目添加需要用到的JAR包 1. 需要在这个界面中加载该Java工程所需要用到的JAR包,这些JAR包中包含了可以访问HDFS的Java API。这些JAR包都位于Linux系统的Hadoop安装目录下,对于本教程而言,就是在“/usr/local/hadoop/share/hadoop”目录下。点击界面中的“Libraries”选项卡,然后,点击界面右侧的“Add External JARs…”按钮,会弹出如下图所示界面。2. 在该界面中,上面的一排目录按钮(即“usr”、“local”、“hadoop”、“share”、“hadoop”和“common”),当点击某个目录按钮时,就会在下面列出该目录的内容。 为了编写一个能够与HDFS交互的Java应用程序,一般需要向Java工程中添加以下JAR包: (1)“/usr/local/hadoop/share/hadoop/common”目录下的所有JAR包,包括hadoop-common-3.1.3.jar、hadoop-common-3.1.3-tests.jar、haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar,注意,不包括目录jdiff、lib、sources和webapps; (2)“/usr/local/hadoop/share/hadoop/common/lib”目录下的所有JAR包; (3)“/usr/local/hadoop/share/hadoop/hdfs”目录下的所有JAR包,注意,不包括目录jdiff、lib、sources和webapps; (4)“/usr/local/hadoop/share/hadoop/hdfs/lib”目录下的所有JAR包。 比如,如果要把“/usr/local/hadoop/share/hadoop/common”目录下的hadoop-common-3.1.3.jar、hadoop-common-3.1.3-tests.jar、haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar添加到当前的Java工程中,可以在界面中点击目录按钮,进入到common目录,然后,界面会显示出common目录下的所有内容(如下图所示)。
- 请在界面中用鼠标点击选中hadoop-common-3.1.3.jar、hadoop-common-3.1.3-tests.jar、haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar(不要选中目录jdiff、lib、sources和webapps),然后点击界面右下角的“确定”按钮,就可以把这两个JAR包增加到当前Java工程中,出现的界面如下图所示。2. 从这个界面中可以看出,hadoop-common-3.1.3.jar、hadoop-common-3.1.3-tests.jar、haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar已经被添加到当前Java工程中。然后,按照类似的操作方法,可以再次点击“Add External JARs…”按钮,把剩余的其他JAR包都添加进来。需要注意的是,当需要选中某个目录下的所有JAR包时,可以使用“Ctrl+A”组合键进行全选操作。全部添加完毕以后,就可以点击界面右下角的“Finish”按钮,完成Java工程HDFSExample的创建。
- 编写Java应用程序 1. 在Eclipse工作界面左侧的“Package Explorer”面板中(如下图所示),找到刚才创建好的工程名称“HDFSExample”,然后在该工程名称上点击鼠标右键,在弹出的菜单中选择“New-->Class”菜单。2. 在该界面中,只需要在“Name”后面输入新建的Java类文件的名称,这里采用名称“MergeFile”,其他都可以采用默认设置,然后,点击界面右下角“Finish”按钮,出现如下图所示界面。
- 可以看出,Eclipse自动创建了一个名为“MergeFile.java”的源代码文件,请在该文件中输入以下代码:
import java.io.IOException;
import java.io.PrintStream;
import java.net.URI;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
/**
* 过滤掉文件名满足特定条件的文件
*/
class MyPathFilter implements PathFilter {
String reg = null;
MyPathFilter(String reg) {
this.reg = reg;
}
public boolean accept(Path path) {
if (!(path.toString().matches(reg)))
return true;
return false;
}
}
/***
* 利用FSDataOutputStream和FSDataInputStream合并HDFS中的文件
*/
public class MergeFile {
Path inputPath = null; //待合并的文件所在的目录的路径
Path outputPath = null; //输出文件的路径
public MergeFile(String input, String output) {
this.inputPath = new Path(input);
this.outputPath = new Path(output);
}
public void doMerge() throws IOException {
Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://localhost:9000");
conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
FileSystem fsSource = FileSystem.get(URI.create(inputPath.toString()), conf);
FileSystem fsDst = FileSystem.get(URI.create(outputPath.toString()), conf);
//下面过滤掉输入目录中后缀为.abc的文件
FileStatus[] sourceStatus = fsSource.listStatus(inputPath,
new MyPathFilter(".*\\.abc"));
FSDataOutputStream fsdos = fsDst.create(outputPath);
PrintStream ps = new PrintStream(System.out);
//下面分别读取过滤之后的每个文件的内容,并输出到同一个文件中
for (FileStatus sta : sourceStatus) {
//下面打印后缀不为.abc的文件的路径、文件大小
System.out.print("路径:" + sta.getPath() + " 文件大小:" + sta.getLen()
+ " 权限:" + sta.getPermission() + " 内容:");
FSDataInputStream fsdis = fsSource.open(sta.getPath());
byte[] data = new byte[1024];
int read = -1;
while ((read = fsdis.read(data)) > 0) {
ps.write(data, 0, read);
fsdos.write(data, 0, read);
}
fsdis.close();
}
ps.close();
fsdos.close();
}
public static void main(String[] args) throws IOException {
MergeFile merge = new MergeFile(
"hdfs://localhost:9000/user/hadoop/",
"hdfs://localhost:9000/user/hadoop/merge.txt");
merge.doMerge();
}
}
- 编译运行程序 1. 在开始编译运行程序之前,请一定确保Hadoop已经启动运行,如果还没有启动,需要打开一个Linux终端,输入以下命令启动Hadoop:
cd /usr/local/hadoop
./sbin/start-dfs.sh
- 然后,要确保HDFS的“/user/hadoop”目录下已经存在file1.txt、file2.txt、file3.txt、file4.abc和file5.abc,每个文件里面有内容。这里,假设文件内容如下: file1.txt的内容是: this is file1.txt file2.txt的内容是: this is file2.txt file3.txt的内容是: this is file3.txt file4.abc的内容是: this is file4.abc file5.abc的内容是: this is file5.abc
上传文件到HDFS:
确保本地系统中存在file1.txt、file2.txt、file3.txt、file4.abc和file5.abc这五个文件,并且这些文件有内容。如果不存在,可以使用以下命令创建并添加内容,例如:
echo "This is file1" > file1.txt
echo "This is file2" > file2.txt
echo "This is file3" > file3.txt
echo "This is file4" > file4.abc
echo "This is file5" > file5.abc
使用hdfs dfs -put命令将本地文件上传到HDFS的/user/hadoop目录下:
# 上传file1.txt
hadoop fs -put file1.txt /user/hadoop/
# 上传file2.txt
hadoop fs -put file2.txt /user/hadoop/
# 上传file3.txt
hadoop fs -put file3.txt /user/hadoop/
# 上传file4.abc
hadoop fs -put file4.abc /user/hadoop/
# 上传file5.abc
hadoop fs -put file5.abc /user/hadoop/
验证文件是否成功上传:
hadoop fs -ls /user/hadoop
- 现在就可以编译运行上面编写的代码。可以直接点击Eclipse工作界面上部的运行程序的快捷按钮,当把鼠标移动到该按钮上时,在弹出的菜单中选择“Run As”,继续在弹出来的菜单中选择“Java Application”,如下图所示。2. 在该界面中,点击界面右下角的“OK”按钮,开始运行程序。程序运行结束后,会在底部的“Console”面板中显示运行结果信息(如下图所示)。同时,“Console”面板中还会显示一些类似“log4j:WARN…”的警告信息,可以不用理会。3. 如果程序运行成功,这时,可以到HDFS中查看生成的merge.txt文件,比如,可以在Linux终端中执行如下命令:
cd /usr/local/hadoop
./bin/hdfs dfs -ls /user/hadoop
./bin/hdfs dfs -cat /user/hadoop/merge.txt
可以看到如下结果:
this is file1.txt
this is file2.txt
this is file3.txt
- 应用程序的部署:下面介绍如何把Java应用程序生成JAR包,部署到Hadoop平台上运行。 1. 首先,在Hadoop安装目录下新建一个名称为myapp的目录,用来存放我们自己编写的Hadoop应用程序,可以在Linux的终端中执行如下命令:
cd /usr/local/hadoop
mkdir myapp
- 然后,请在Eclipse工作界面左侧的“Package Explorer”面板中,在工程名称“HDFSExample”上点击鼠标右键,在弹出的菜单中选择“Export”。2. 在弹出的界面中,选择“Java-Runnable JAR file”,然后,点击“Next>”按钮。3. 在弹出的界面中,“Launch configuration”用于设置生成的JAR包被部署启动时运行的主类,需要在下拉列表中选择刚才配置的类“MergeFile-HDFSExample”。在“Export destination”中需要设置JAR包要输出保存到哪个目录,比如,这里设置为“/usr/local/hadoop/myapp/HDFSExample.jar”。在“Library handling”下面选择“Extract required libraries into generated JAR”。然后,点击“Finish”按钮,会出现警告页面,可以忽略该界面的信息,直接点击界面右下角的“OK”按钮,启动打包过程。4. 打包过程结束后,也会出现一个警告信息界面,可以忽略该界面的信息,直接点击界面右下角的“OK”按钮。至此,已经顺利把HDFSExample工程打包生成了HDFSExample.jar。可以到Linux系统中查看一下生成的HDFSExample.jar文件,可以在Linux的终端中执行如下命令:
cd /usr/local/hadoop/myapp
ls
- 可以看到,“/usr/local/hadoop/myapp”目录下已经存在一个HDFSExample.jar文件。
- 由于之前已经运行过一次程序,已经生成了merge.txt,因此,需要首先执行如下命令删除该文件:
cd /usr/local/hadoop
./bin/hdfs dfs -rm /user/hadoop/merge.txt
- 现在,就可以在Linux系统中,使用hadoop jar命令运行程序,命令如下:
cd /usr/local/hadoop
./bin/hadoop jar ./myapp/HDFSExample.jar
- 上面程序执行结束以后,可以到HDFS中查看生成的merge.txt文件,比如,可以在Linux终端中执行如下命令:
cd /usr/local/hadoop
./bin/hdfs dfs -ls /user/hadoop
./bin/hdfs dfs -cat /user/hadoop/merge.txt
可以看到如下结果:
this is file1.txt
this is file2.txt
this is file3.txt
- [选做]完成HDFS的编程任务
利用Hadoop提供的Shell命令完成以下任务:
向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,由用户指定是追加到原有文件末尾还是覆盖原有的文件;
上传文件,如果文件已存在,使用-o选项覆盖,使用-a选项追加:
hdfs dfs -put -f merge.txt /user/hadoop/localfile/
hdfs dfs -appendToFile merge.txt /user/hadoop/localfile/merge.txt
从HDFS中下载指定文件,如果本地文件与要下载的文件名称相同,则自动对下载的文件重命名;
hdfs dfs -getmerge /user/hadoop/localfile/merge.txt ./
将HDFS中指定文件的内容输出到终端中;
使用cat命令:
hdfs dfs -cat /user/hadoop/localfile/merge.txt
显示HDFS中指定的文件的读写权限、大小、创建时间、路径等信息;
使用ls命令查看文件详细信息:
hdfs dfs -ls /user/hadoop/localfile/merge.txt
给定HDFS中某一个目录,输出该目录下的所有文件的读写权限、大小、创建时间、路径等信息,如果该文件是目录,则递归输出该目录下所有文件相关信息;
使用ls -R递归显示目录下所有文件的信息:
hdfs dfs -ls -R /user/hadoop/localfile
提供一个HDFS内的文件的路径,对该文件进行创建和删除操作。如果文件所在目录不存在,则自动创建目录;
- 使用-put命令上传文件:(实测做不到):
hdfs dfs -put -p merge.txt /user/hadoop/targetdir/touchfile.txt
- 删除文件:
hdfs dfs -rm /user/hadoop/localfile/merge.txt
提供一个HDFS的目录的路径,对该目录进行创建和删除操作。创建目录时,如果目录文件所在目录不存在则自动创建相应目录;删除目录时,由用户指定当该目录不为空时是否还删除该目录;
- 创建目录(如果父目录不存在会自动创建):
hdfs dfs -mkdir -p /user/hadoop/newDir/newDir2
- 删除目录,如果需要递归删除非空目录,使用-R选项:
hdfs dfs -rmdir /user/hadoop/newDir/newDir2
hdfs dfs -rm -r /user/hadoop/newDir
向HDFS中指定的文件追加内容,由用户指定内容追加到原有文件的开头或结尾;
使用appendToFile命令追加内容:
hdfs dfs -appendToFile merge.txt /user/hadoop/localfile/merge.txt
(要追加到文件开头,需要先拷贝到临时文件,修改临时文件内容,然后覆盖原文件,HDFS 不支持直接追加到文件开头。)
删除HDFS中指定的文件;
使用rm命令:
hdfs dfs -rm /user/hadoop/merge.txt
删除HDFS中指定的目录,由用户指定目录中如果存在文件时是否删除目录;
如果目录不为空,需要使用-skipTrash选项和-R选项来强制删除:
hdfs dfs -rm -r -skipTrash /user/hadoop/localfile
在HDFS中,将文件从源路径移动到目的路径。
使用mv命令:
hdfs dfs -mv /user/hadoop/file1.txt /user/hadoop/mvfile.txt
出现的问题:
- Hadoop 的配置文件中未定义 HDFS_NAMENODE_USER、HDFS_DATANODE_USER 和 HDFS_SECONDARYNAMENODE_USER 环境变量。这些变量指定了运行 NameNode、DataNode 和 SecondaryNameNode 的用户。
- 执行./bin/hdfs dfs -ls的时候报错——错误信息:ls: '.': No such file or directory
- hdfs使用cp命令时发现input是个文件而不是目录
- hadoop用户执行./eclipse报错:拒绝连接
- ResourceManager和NodeManager未启动
解决方案(列出遇到的问题和解决办法,列出没有解决的问题):
已解决的问题:
问题一:Hadoop 的配置文件中未定义 HDFS_NAMENODE_USER、HDFS_DATANODE_USER 和 HDFS_SECONDARYNAMENODE_USER 环境变量。
解决方法:
编辑 hadoop-env.sh 文件(/usr/local/hadoop/etc/hadoop/hadoop-env.sh)
在文件末尾添加以下几行:(把hdfs替换成实际使用的用户名——我替换成了hadoop,root没试过,也可以useradd一个hdfs用户)
export HDFS_NAMENODE_USER=hdfs
export HDFS_DATANODE_USER=hdfs
export HDFS_SECONDARYNAMENODE_USER=hdfs
保存并关闭文件。
设置正确的权限:确保 Hadoop 目录的所有权和权限正确。通常,你会将这些目录的所有权设置为 hdfs(hadoop) 用户和组。
sudo chown -R hdfs:hdfs /usr/local/hadoop
sudo chown -R hadoop:hadoop /usr/local/hadoop
重新启动 Hadoop 服务:
./sbin/start-dfs.sh
问题二:执行./bin/hdfs dfs -ls的时候报错——错误信息:ls: '.': No such file or directory
解决方法:
执行su hadoop,从root用户切换到hadoop用户
问题三:hdfs使用cp命令时发现input是个文件而不是目录
解决方法:重命名或删除现有文件
删除现有的 /input 文件
./bin/hdfs dfs -rm /input
或者重命名现有的 /input 文件
./bin/hdfs dfs -mv /input /input_backup
然后重新创建 /input 目录并执行拷贝操作:
创建 /input 目录
./bin/hdfs dfs -mkdir -p /input
拷贝文件到 /input 目录
./bin/hdfs dfs -cp /user/hadoop/input/myLocalFile.txt /input/
删除现有的 /input 文件
./bin/hdfs dfs -rm /input
或者重命名现有的 /input 文件
./bin/hdfs dfs -mv /input /input_backup
然后重新创建 /input 目录并执行拷贝操作:
创建 /input 目录
./bin/hdfs dfs -mkdir -p /input
拷贝文件到 /input 目录
./bin/hdfs dfs -cp /user/hadoop/input/myLocalFile.txt /input/
问题四:作为hadoop用户直接执行./eclipse报错
解决方法:
1、尝试失败:执行sudo ./eclipse命令,会提示JRE路径出错
2、失败:切换成root用户后直接执行./eclipse
但是后面代码编译会有问题,一直报错。
3、最后解决:以 root 用户运行“xhost +”命令,允许所有用户连接到 X 服务器,然后切换回hadoop用户执行./eclipse命令
问题五:ResourceManager和NodeManager未启动
Ps:使用jps命令可以检查各个进程是否已经成功启动。如果输出结果中包含以下信息,则说明相应的服务正在运行:
jps | grep NameNode
jps | grep DataNode
jps | grep ResourceManager
jps | grep NodeManager
为了确保Hadoop集群正常运行,特别是对于MapReduce作业的执行,需要启动ResourceManager和NodeManager。以下是启动这两个组件的步骤:
启动ResourceManager和NodeManager:
- 进入Hadoop目录:
cd /usr/local/hadoop
- 启动YARN服务: 1. 执行start-yarn.sh脚本来启动ResourceManager和NodeManager:
./sbin/start-yarn.sh
需要设置YARN相关的环境变量:
- 编辑配置文件: 1. 打开Hadoop的配置文件(通常位于/etc/hadoop/hadoop-env.sh或$HADOOP_HOME/etc/hadoop/hadoop-env.sh)。
~/.bashrc文件内容:
执行find / -name 'hadoop-env.sh'查找配置文件:
- 如果文件不存在,您可以创建它并添加以下内容:
export HADOOP_USER_NAME=hadoop
- 确保HADOOP_USER_NAME的值是一个非root用户,该用户应该具备执行YARN相关操作的权限。
- 验证配置: 1. 保存配置文件后,重新加载环境变量:
source $HADOOP_HOME/etc/hadoop/hadoop-env.sh
- 重新启动YARN服务: > 1. 进入Hadoop的sbin目录:> 2. cd /usr/local/hadoop/sbin> 3. 停止YARN服务:(切换到hadoop用户)> 4. ./stop-yarn.sh> 5. 启动YARN服务:> 6. ./start-yarn.sh
- 检查服务状态:再次使用jps命令检查ResourceManager和NodeManager是否已经成功启动:
jps | grep ResourceManager
jps | grep NodeManager
如果以上所有命令都输出结果,则说明ResourceManager和NodeManager已经成功启动。
未解决的问题:
版权归原作者 ywmzxysjdsjlcf 所有, 如有侵权,请联系我们删除。