【Hadoop和Spark伪分布式安装与使用】

Hadoop和Spark伪分布式安装与使用（史上最全，本人遇到的所有问题都记录在内）第一期

本教程（也算不上不哈）适用于从零开始安装，就是电脑上什么都没安装的那种，因为本人就是，看到这篇文章的伙伴，让我们一起安装吧！注意下面下载的所有文件均是免费的，如有网页弹出付费，请及时叉掉，我提供的一般都是官方网站，谨防受骗，在此温馨提醒！下面是我的安装步骤：

由于本文着重点在于“Hadoop和Spark伪分布式安装”，所以虚拟机的安装我就不一个一个截图了，但又详细的步骤说明，大家可以参考一下

1、在Windows（也就是你的电脑）上下载VMware Workstation Pro
在这里插入图片描述

下载网址：https://www.vmware.com/products/workstation-pro/workstation-pro-evaluation.html

vmware workstation 17 pro密匙：
4A4RR-813DK-M81A9-4U35H-06KND
NZ4RR-FTK5H-H81C1-Q30QH-1V2LA
JU090-6039P-08409-8J0QH-2YR7F
4Y09U-AJK97-089Z0-A3054-83KLA
4C21U-2KK9Q-M8130-4V2QH-CF810
MC60H-DWHD5-H80U9-6V85M-8280D

上面的密钥如果过期的话，可以在网上自行百度，都会有的。

2、下载Ubuntu镜像文件

在这里插入图片描述

下载网址：https://cn.ubuntu.com/download/desktop

下载时请注意下载镜像文件.iso

3、安装VMware和Ubuntu

双击打开第一步下载的.exe可执行文件，等待一会跳出安装向导

在这里插入图片描述

根据提示，一直点下一步，最后会提示重启电脑，点重启就好了
重启后双击打开桌面上的VMware Workstation Pro，创建新的虚拟机

在这里插入图片描述

1、选择典型（推荐）安装，点击下一步
2、点击安装程序光盘映像文件后面的浏览按钮，选择第二步下载的映像文件，点击下一步
3、用户名可以自己命名，记得住就行，设置密码，长度一般没有限制，设置完点击下一步
4、安装位置尽量放在D盘或者其他内存较大的盘，点击下一步
5、虚拟机内存大小默认20G，可增可减，根据情况而定，然后选单个文件，点击下一步
6、最后可以看一下硬件，点击完成即可

1、安装完成后点击右边开启此虚拟机，等待开启即可
2、选择语言，喜欢英文就用英文，喜欢中文就用中文
3、选择地区，一般都是上海，不用动
最后一步如下图：

在这里插入图片描述

最后再重启一下就完事了

重启后桌面如果还是英文的话，按以下设置：1、右键单击，点击设置，找到语言设置，设置为chinese即可，下面是我汉化后的，可以做个参考。2、然后找到语言支持，第一次打开可能要install一下，然后把中文拉到第一行

在这里插入图片描述

4、创建Hadoop用户

首先右键或者按 ctrl+alt+t 打开终端窗口，输入如下命令创建新用户：

sudo useradd -m hadoop -s /bin/bash

sudo命令: sudo是ubuntu中一种权限管理机制，管理员可以授权给一些普通用户去执行一些需要root权限执行的操作。当使用sudo命令时，就需要输入您当前用户的密码（也就是你在第三步安装虚拟机时设置的密码）。

在Linux的终端中输入密码，终端是不会显示任何你当前输入的密码，也不会提示你已经输入了多少字符。

接着使用如下命令设置密码，按提示输入两次密码（这个密码是为即将创建的hadoop用户设置的，密码要求最低八位数）：

sudo passwd hadoop

为 hadoop 用户增加管理员权限

sudo adduser hadoop sudo

最后注销当前用户（点击屏幕右上角的齿轮，选择注销），返回登陆界面。在登陆界面中选择刚创建的 hadoop 用户进行登陆。

5、更新apt

用 hadoop 用户登录后，先更新一下 apt，后续使用 apt 安装软件，如果没更新可能有一些软件安装不了。打开终端窗口，执行如下命令：

sudo apt-get update

6、安装vim

命令如下：

sudo apt-get install vim

安装软件时若需要确认，在提示处输入 y 即可。

7、安装SSH、配置SSH无密码登陆

集群、单节点模式都要用到 SSH 登陆（类似于远程登陆，可以登录某台 Linux 主机，并且在上面运行命令），Ubuntu 已经默认安装了 SSH client，还需要安装 SSH server：

sudo apt-get install openssh-server

用下面的命令登录本机

ssh localhost

SSH首次登陆会有提示，输入 yes ，然后按提示输入hadoop密码。

接下来配置SSH无密码登陆：

exit# 退出刚才的 ssh localhostcat./id_rsa.pub >> ./authorized_keys  # 加入授权
cd ~/.ssh/                     # 若没有该目录，请先执行一次ssh localhost,然后再输入命令
ssh-keygen -t rsa              # 会有提示，都按回车就可以

此时再次登陆，用 ssh localhost 命令，无需输入密码就可以直接登陆了

8、安装Java环境（推荐看第二期的附录）

第二期传送门

这个方法虽然可以成功安装，但后面Java的版本不好找，如果大佬你可以看出来的话，这种方法还是很简单的

命令如下

sudo apt-get install default-jre default-jdk

上述安装过程需要访问网络下载相关文件，请保持联网状态。安装结束以后，需要配置JAVA_HOME环境变量，请在Linux终端中输入下面命令打开当前登录用户的环境变量配置文件.bashrc：

vim ~/.bashrc

按下键盘上的i键，进入插入模式，在文件最前面添加如下单独一行（注意，等号“=”前后不能有空格），然后保存退出（按下键盘esc键，接着输入:wq保存退出）：

export JAVA_HOME=/usr/lib/jvm/default-java

使环境变量立即生效，输入代码：

source ~/.bashrc    # 使变量设置生效

执行上述命令后，可以用下面代码检验一下是否设置正确：

echo$JAVA_HOME# 检验变量值
java -version

9、安装 MobaXterm

下载地址：https://mobaxterm.mobatek.net/

因为Linux系统不能直接和Windows文件共享，所以就需要建立共享空间或者利用远程软件来达到将windows下的文件上传到ubuntu中的目的，我用的是远程。

在这里插入图片描述

选择蓝色的按钮下载，按照上述下载压缩包，在电脑上直接解压缩就可用，不用安装。

10、mobaxterm 远程 ubuntu 桌面

1、检测主机和虚拟机网络能否连接

1、 Ubuntu终端安装网络工具

终端命令：sudo apt install net-tools
（若安装失败，检查Ubuntu是否换源成功，必要时重新换源，可参考附加说明）

2、关闭主机和虚拟机防火墙

Ubuntu关闭方式：

终端命令：sudo ufw disable

Windows关闭方式：
打开windows安全中心，点击关闭防火墙

在这里插入图片描述

3、在虚拟机终端查找ip信息

终端命令：ifconfig

在这里插入图片描述

4、在主机终端查找ip信息

在搜索栏中输入cmd打开终端窗口，输入ipconfig查询主机ip信息

在这里插入图片描述

5、环境检测

主机和虚拟机互ping对方的IP地址，若能相互ping通，代表主机和虚拟机网络能连接。

在这里插入图片描述

6、Ubuntu中安装SSH（上面已经安装过了，为了保险起见，在这里再安装一遍），命令如下：

  sudo apt-get remove openssh-server
  sudo apt install openssh-server
  sudo service ssh startps-aux | grep ssh

7、连接ubuntu

在这里插入图片描述

输入密码按回车键，选择No

在这里插入图片描述

连接成功，如下所示

在这里插入图片描述
11、安装 Hadoop

下载地址：https://archive.apache.org/dist/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz

在mobaxterm中选择下载文件夹，双击进去，将下载好的Hadoop压缩包拖进去

在这里插入图片描述

回到ubuntu的终端输入命令（注意大小写和空格）：

sudo tar -zxf ~/Downloads/hadoop-3.3.4.tar.gz -C /usr/local    # 解压到/usr/local中
cd /usr/local/
sudo mv./hadoop-3.3.4/ ./hadoop            # 将文件夹名改为hadoop
sudo chown -R hadoop ./hadoop       # 修改文件权限

Hadoop 解压后，输入如下命令来检查 Hadoop 是否可用，成功则会显示 Hadoop 版本信息：

cd /usr/local/hadoop
./bin/hadoop version

在这里插入图片描述
下期继续~

标签： hadoop

本文转载自: https://blog.csdn.net/m0_65640335/article/details/136535154
版权归原作者 墨染微凉～ 所有，如有侵权，请联系我们删除。

【Hadoop和Spark伪分布式安装与使用】

发表评论

“【Hadoop和Spark伪分布式安装与使用】”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航