Hadoop单机版安装（保姆级教学）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言

Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
1.高可靠性
Hadoop按位存储和处理数据的能力值得人们信赖 [3] 。
2.高扩展性
Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
3.高效性
Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
4.高容错性
Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。
5.低成本
与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。
Hadoop带有用Java语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++ [3] 。

Hadoop大数据处理的意义
Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构，将大数据处理引擎尽可能的靠近存储，对例如像ETL这样的批处理操作相对合适，因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎，并将碎片任务(Map)发送到多个节点上，之后再以单个数据集的形式加载(Reduce)到数据仓库里。

提示：以下是本篇文章正文内容，下面案例可供参考

一、安装Linux镜像文件

1.从官网上下载Oracle官网上下载virtual Box ，从Ubuntu官网下载系统。

Oracle VirtualBox
https://www.virtualbox.org/wiki/Downloads

Ubuntu20.04
https://ubuntu.com/wsl

2.安装Virtual Box和虚拟机系统

2.1 VirtualBox安装启动。

2.2 VirtualBox安装启动后，新建虚拟电脑。

在这里插入图片描述

2.3新建虚拟电脑的相关配置。

在这里插入图片描述

2.4选择启动盘，虚拟机的镜像文件，（本次为Ubuntu20.04版本）。

在这里插入图片描述

2.5耐心等待系统安装。

在这里插入图片描述

二、打开命令窗口，创建Hadoop用户

 $sudo useradd -m hadoop -s /bin/bash //新增hadoop⽤户
 $sudo passwd hadoop // 为"hadoop"⽤户设置密码;
 $sudo adduser hadoop sudo //为"hadoop"⽤户添加管理员权限;
 注销当前账户，使⽤hadoop账户登录

三、更新安排apt和安装Vim编译器

1.更新apt

$sudo apt-get update //更新客户/服务器系统

2.下载vim编译器

$sudo apt-get install vim  //下载vim编译器，后续会用到

四、安装SSH和配置ssh免密登录

1.下载SSH服务端和客户端

$sudo apt-get install openssh-server //ssh下载

2.登录本机

$ssh localhost  //输入 'yes'，登录本机，每次登录都需密码

3.配置无密码登录

$exit      //退出登录
$cd  ~/.ssh///切换到ssh目录
$ssh-keygen -t rsa //生成密钥
$cat ./id_rsa/pub >>./authorized_keys //将密钥添加到公钥中

4.无密码登录

$ssh localhost  //本次登录无需输入密码

五、安装JAVA环境（安装jdk）

1.下载jdk1.8

https://download.oracle.com/java/18/latest/jdk-18_linux-aarch64_bin.tar.gz
在这里插入图片描述

2.打开命令窗口，创建存放jdk文件的目录。

$cd /usr/lib
$sudo mkdir jvm //创建jvm目录，存放JDK文件

3.解压缩jdk压缩包

$cd ~/Downloads    //jdk压缩包的位置
$sudo  tar -zxvf  ./jdk-8u152-linux-x64.tar.gz  -C  /usr/lib/jvm  //根据压缩包版本名称解压

4.配置java环境变量

$sudo vim ~/.bashrc

//按键i进入vim插入模式，在开头添加,跟据所下版本写入，本次采用的是jdk1.8.0_152版本
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_152             
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH //将jdk⽬录下可执⾏⽂件加⼊到系统PATH中//写完成后，键盘依次 Esc :wq 保存并推出  

$source ~/.bashrc    //配置环境变量生效
$java -version      //查看java版本//若屏幕显示返回如下信息，则说明安装成功。
java version "1.8.0_152"Java(TM) SE Runtime Environment(build 1.8.0_152-b16)
Java HotSpot(TM)64-Bit Server VM(build 25.152-b16, mixed mode)

六、安装单机Hadoop

1.从Apach官网上下载Hadoop 2.10.1版本

https://downloads.apache.org/hadoop/common/hadoop-2.10.1/hadoop-2.10.1.tar.gz
在这里插入图片描述

2.解压安装Hadoop2.10.1

$cd ~/Downloads  //切换到Hadoop安装包的位置
$sudo tar -zxf  ./hadoop-2.10.1.tar.gz -C /usr/local   //将Hadoop解压到/usr/local目录下
$cd /usr/local
$sudo mv ./hadoop-2.10.1/./hadoop     //将目录名改为hadoop
$sudo chown -R hadoop ./hadoop         //修改目录权限

3.配置Hadoop 环境变量

$sudo vim ~/.bashrc  //打开环境变量目录写入
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export PATH=${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH

4.查看Hadoop版本信息

$hadoop version   //查看版本信息/*若屏幕显示返回如下信息，则说明安装成功。
Hadoop 2.10.1
Subversion https://github.com/apache/hadoop -r 1827467c9a56f133025f28557bfc2c562d78e816
Compiled by centos on 2020-09-14T13:17Z
Compiled with protoc 2.5.0
From source with checksum 3114edef868f1f3824e7d0f68be03650
This command was run using /usr/local/hadoop/share/hadoop/common/hadoop-common-2.10.1.jar
*/

七、配置相关文件

1.配置core-site.xml

$cd /usr/local/hadoop/etc/hadoop   //切换到Hadoop目录
$sudo vim core-site.xml   //打开core-site.xml文件//在区域内添加<configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>Abasefor other temporary directories.</description></property></configuration>

1.配置hdfs-sitexml

$sudo vim hdfs-site.xml   //打开hdfs目录//在区域内添加<configuration><property><name>dfs.namenode.name.dir</name><value>file:/usr/local/hadoop/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/dfs/data</value></property><property><name>dfs.replication</name><value>1</value></property></configuration>

八、运行与测试

$hdfs namenode -format   //文件系统初始化,后续不用多次初始化
$start-dfs.sh   //启动HDFS

$jps    //查看进程8885 jps
8072 NameNode
8412 SecondaryNameNode
8223 DataNode             
//得到类似结果

总结

以上就是今天要讲的内容，本文仅仅简单介绍了Hadoop单机版的安装，而Hadoop平台提供了许多的功能供我们快速便捷地分布式处理数据，后续我将会不断更新安装文章，供大家参考。

标签： hadoop mapreduce big data

本文转载自: https://blog.csdn.net/m0_62370232/article/details/124729897
版权归原作者 一腔酸楚尽是喜你 所有，如有侵权，请联系我们删除。

Hadoop单机版安装（保姆级教学）

文章目录

前言

一、安装Linux镜像文件

1.从官网上下载Oracle官网上下载virtual Box ，从Ubuntu官网下载系统。

2.安装Virtual Box和虚拟机系统

2.1 VirtualBox安装启动。

2.2 VirtualBox安装启动后，新建虚拟电脑。

2.3新建虚拟电脑的相关配置。

2.4选择启动盘，虚拟机的镜像文件，（本次为Ubuntu20.04版本）。

2.5耐心等待系统安装。

二、打开命令窗口，创建Hadoop用户

三、更新安排apt和安装Vim编译器

1.更新apt

2.下载vim编译器

四、 安装SSH和配置ssh免密登录

1.下载SSH服务端和客户端

2.登录本机

3.配置无密码登录

4.无密码登录

五、安装JAVA环境（安装jdk）

1.下载jdk1.8

2.打开命令窗口，创建存放jdk文件的目录。

3.解压缩jdk压缩包

4.配置java环境变量

六、安装单机Hadoop

1.从Apach官网上下载Hadoop 2.10.1版本

2.解压安装Hadoop2.10.1

3.配置Hadoop 环境变量

4.查看Hadoop版本信息

七、配置相关文件

1.配置core-site.xml

1.配置hdfs-sitexml

八、运行与测试

总结

发表评论

“Hadoop单机版安装（保姆级教学）”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航

四、安装SSH和配置ssh免密登录