Hadoop常用命令
1.创建文件夹
hadoop dfs -mkdir /hadoop/path/
2.上传文件的两种方式
hdfs dfs -copyFromLocal /local/data/file.txt /hadoop/data :将本地文件上传到hdfs上(原路径只能是一个文件)
hadoop dfs -put /local/*.txt /hadoop/path/ :put和 copyFromLocal 区别是,put 原路径可以是文件夹等
hadoop dfs -put -f /local/*.txt /hadoop/path/ :-f 含义是表示强制覆益
3.上传文件夹
hdfs dfs -put /local/data/ /hadoop/data/
4.删除目录dir:
hadoop dfs -rm -r /hadoop/data
##删除目录不放回收站-skipTrash
hdfs dfs -rm-r -skipTrash /hadoop/data/two_lm_txt_all_gbk
5.查看目录 文件
hadoop dfs -ls /tmp/data :查看/tmp/data 目录
6.查看文件内容
hadoop fs -cat /tmp/a.txt :查看/tmp/a.txt文件内容
7.下载文件
hadoop fs -get /path/to/hadoop/file.txt /path/on/local/machine
8.查看文件夹下的文件数量
hdfs dfs -count /hadoop/data
9.Hadoop上移动文件
hdfs dfs -mv /hadoop/data/* /hadoop/data1/
10.查着文件夹占用内存
hdfs dfs -du -h -s /hadoop/data/
11.查看文件夹下数据占用内存
hdfs dfs -du -h /workdir/nlm
hadoop dfs -du -h /workdir/nlm
12.查着Hadoop任务进程id
yarn application list
yarn application -list
13.kill掉Hadoop任务进程id
yarn application -kill id
14.查看hadoop的md5
hadoop dfs -cat /hadoop/data.txt | md5sum
实操:对比本地文件md5,来判断上传文件是否一致
import subprocess
defcommand_shell(command):
output=subprocess.check_output(command,shell=True)
output_str=output.decode("utf-8")return output_str.split(" ")[0]
command1="md5sum /local/data.txt"
local_md5=command_shell(command1)
command2="hadoop dfs -cat /hadoop/data.txt | md5sum"
hdfs_md5=command_shell(command2)if local_md5==hdfs_md5:print("md5相同,文件一致")
15.将目录下的所有内容merge成一个文件,下载到本地
hadoop dfs -getmerge /hadoop/
版权归原作者 空弹壳 所有, 如有侵权,请联系我们删除。