hadoop本地化windows部署

文章目录

前言

需求背景是java代码提交服务器测试周期流程太慢，需要一种能直接在windows本地部署的相关组件。分析项目现有大数据技术栈，包括hadoop、hive和spark(sparksql)，存储和计算都依赖windows系统。期中hive保存在本地的hadoop上，spark提交在hadoop的yarn上。

· hadoop on windows
· hive on windows
· spark on windows(提交方式是spark on yarn)

注意事项：

在spark官网选择spark版本的时候确定对应支持的hadoop版本，然后选择对应hadoop的winutils-master的版本。
Spark下载路径：https://spark.apache.org/downloads.html
Hadoop下载路径：https://archive.apache.org/dist/hadoop/common/
Scala下载路径：https://www.scala-lang.org/download/all.html
Winutils-master下载路径：https://github.com/cdarlint/winutils

1. hadoop on windows

1.1 安装jdk

jdk安装省略了

Win+R输入cmd，再键入java -version，确认jdk安装是否成功
在这里插入图片描述

1.2 安装hadoop

1.2.1 解压

解压下载的包到一个无中文无空格的路径下

1.2.2 备用目录

新建一个无中文无空格的文件夹，作为hadoop的namenode地址和datanode地址

1.2.3 修改配置

分别修改解压包下~\etc\hadoop的相关配置文件

hdfs-site.xml
yan-site.xml
mapred-site.xml
core-site.xml
hadoop-env.cmd

1.2.4 安装winutils-master

解压winutils-master包，找到对应hadoop依赖版本的并进入bin目录将这个文件夹里面的文件整体复制到hadoop的安装路径~/bin下

1.2.5 格式化namenode

以管理员启动cmd.exe，键入hdfs namenode -formet，再确认Y

1.2.6 启动hadoop

以管理员启动cmd.exe，进入到hadoop加压路径~/sbin，执行start-all，当再弹出四个窗口并无报错的时候即启动成功

namenode
datanode
nodemanager
resourcemanager

1.2.7 web-ui登陆hadoop hdfs

我安装的是3.0版本的hadoop，所以登陆页面是https://localhost:9870，如果是2.0版本的hadoop，登陆页面是https://localhost:50070
在这里插入图片描述

2. spark on windows

2.1 安装scala

spark是scala语言开发的，依赖语言环境。类似于安装jdk，Win+R输入cmd，再键入scala -version，确认scala安装是否成功
在这里插入图片描述

2.2 安装spark

2.2.1 解压

解压spark安装包到一个无中文无空格的路径下

2.2.2 环境变量

配置spark环境变量，类似于配置jdk变量。需要配置SPARK_HOME和Path

SPARK_HOME=spark解压安装路径

Path新增一个%SPARK_HOME%\bin

2.2.3 spark配置

修改spark-env.sh添加以下配置，这一步修改的意义是为了让spark的提交走hadoop的yarn

YARN_CONF_DIR=hadoop安装路径/etc/hadoop

2.3 启动spark-shell

执行spark-shell启动
在这里插入图片描述

2.4 登陆web-ui

管理页面，https://localhost:4040
在这里插入图片描述

3. hive on windows

hive on windows 需要安装本地化mysql 忒麻烦了。但是hive on windows 其实很好实现，这里就偷个懒省略了。

标签： hadoop windows 大数据

本文转载自: https://blog.csdn.net/qq_37067752/article/details/131210857
版权归原作者 陈舟的舟 所有，如有侵权，请联系我们删除。