Hadoop常用命令

1.创建文件夹

hadoop dfs -mkdir /hadoop/path/

2.上传文件的两种方式

hdfs dfs -copyFromLocal /local/data/file.txt /hadoop/data :将本地文件上传到hdfs上(原路径只能是一个文件)
hadoop dfs -put /local/*.txt /hadoop/path/ :put和 copyFromLocal 区别是，put 原路径可以是文件夹等

hadoop dfs -put -f /local/*.txt /hadoop/path/ :-f 含义是表示强制覆益

3.上传文件夹

hdfs dfs -put /local/data/ /hadoop/data/

4.删除目录dir:

hadoop dfs -rm -r /hadoop/data
##删除目录不放回收站-skipTrash
hdfs dfs -rm-r -skipTrash /hadoop/data/two_lm_txt_all_gbk

5.查看目录文件

hadoop dfs -ls /tmp/data :查看/tmp/data 目录

6.查看文件内容

hadoop fs -cat /tmp/a.txt ：查看/tmp/a.txt文件内容

7.下载文件

hadoop fs -get /path/to/hadoop/file.txt /path/on/local/machine

8.查看文件夹下的文件数量

hdfs dfs -count /hadoop/data

9.Hadoop上移动文件

hdfs dfs -mv /hadoop/data/* /hadoop/data1/

10.查着文件夹占用内存

hdfs dfs -du -h -s /hadoop/data/

11.查看文件夹下数据占用内存

hdfs dfs -du -h /workdir/nlm
hadoop dfs -du -h /workdir/nlm

12.查着Hadoop任务进程id

yarn application list
yarn application -list

13.kill掉Hadoop任务进程id

yarn application -kill id

14.查看hadoop的md5

hadoop dfs -cat /hadoop/data.txt | md5sum

实操：对比本地文件md5，来判断上传文件是否一致

import subprocess
defcommand_shell(command):
    output=subprocess.check_output(command,shell=True)
    output_str=output.decode("utf-8")return output_str.split(" ")[0]
command1="md5sum /local/data.txt"
local_md5=command_shell(command1)
command2="hadoop dfs -cat /hadoop/data.txt | md5sum"
hdfs_md5=command_shell(command2)if local_md5==hdfs_md5:print("md5相同，文件一致")

15.将目录下的所有内容merge成一个文件，下载到本地

hadoop dfs -getmerge /hadoop/

标签： hadoop hdfs 大数据

本文转载自: https://blog.csdn.net/weixin_47046791/article/details/131198529
版权归原作者 空弹壳 所有，如有侵权，请联系我们删除。

Hadoop常用命令