Hadoop的安装与配置（非常重要）

官方的原生配置文档Hadoop3.1.0

HDFS的组成

NameNode
secondaryNameNode
DataNode

这是以主从模式来运行的，前两个在maser节点上，最后一个在slave节点上

1. 解压hadoop安装包

要学会从官方网站里找到历史镜像和release的发布版本来下载
我觉得从别人给的资源包里和从别的网盘里下载的东西还是太虚了
真正要学会一个东西必须从最原生的东西开始学起

一定要下载300兆的，不要下载src的，这个是源码文件
在这里插入图片描述

vmware中移动文件的小妙招

Vmware虚拟机和主机之间复制、粘贴内容、拖拽文件的详细方法

使用xftp来传输文件
使用vmware tools工具来直接进行拖拽传送

2. 配置Hadoop环境变量

其实配置的jdk的变量位置

Hadoop的环境变量文件：hadoop-env.sh

在hadoop子目录下的/etc文件中

把java_home的目录改为自己本机真实的jdk目录即可

3. 配置yarn环境变量

和上面相同，文件也是位于hadoop的解压目录下

在hadoop的3.1.0中，不需要配置yarn-env文件，默认会使用hadoop-env中的配置

4. 配置核心组件

core-site.xml文件的配置代码

<configuration>

<property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
</property>

<property>
    <name>hadoop.tmp.dir</name>
    <value>/home/wangguowei/hadoopdata</value>
</property>

</configuration>

5. 配置文件系统

hdfs-site.xml

<configuration>

<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>

</configuration>

6. 配置yarn-site.xml文件

<configuration>

<!-- Site specific YARN configuration properties -->

<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
</property>

<property>
        <name>yarn.resourcemanager.address</name>
        <value>master:18040</value>
</property>

<property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>master:18030</value>
</property>

<property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>master:18025</value>
</property>

<property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>master:18141</value>
</property>

<property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>master:18088</value>
</property>

 

</configuration>

7. 配置MapReduce计算框架文件

mapred-site.xml

<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>

<property>
  <name>yarn.app.mapreduce.am.env</name>
  <value>HADOOP_MAPRED_HOME=/home/wangguowei/hadoop-3.1.0</value>
</property>

<property>
  <name>mapreduce.map.env</name>
  <value>HADOOP_MAPRED_HOME=/home/wangguowei/hadoop-3.1.0</value>
</property>

<property>
  <name>mapreduce.reduce.env</name>
  <value>HADOOP_MAPRED_HOME=/home/wangguowei/hadoop-3.1.0</value>
</property>

<property>
  <name>mapreduce.map.memory.mb</name>
  <value>2048</value>
</property>

<property>
  <name>mapreduce.map.java.opts</name>
  <value>-Xmx1024M</value>
</property>

<property>
  <name>mapreduce.reduce.memory.mb</name>
  <value>4096</value>
</property>

<property>
  <name>mapreduce.reduce.java.opts</name>
  <value>-Xmx2560M</value>
</property>

8. 配置master中的worker文件

[wangguowei@master hadoop]$ cat workers
slave0
slave1

免秘钥登录配置

1. master节点的配置

cat命令：复制并改名
scp命令：Linux scp 命令用于 Linux 之间复制文件和目录。

scp 是 secure copy 的缩写, scp 是 linux 系统下基于 ssh 登陆进行安全的远程文件拷贝命令。

思路：在master中生成公钥和私钥，将master中的公钥给了slave1和0

2. 在slave节点的配置

生成rsa秘钥
将master中的公钥复制到隐藏的ssh文件中
顺便修改公钥的使用权限

如何从远程计算机退回到本地计算机？exit来退出

在maser中升恒公钥的秘钥

Linux的远程登录

Linux 一般作为服务器使用，而服务器一般放在机房 你不可能在机房操作你的 Linux 服务器。

这时我们就需要远程登录到Linux服务器来管理维护系统。

Linux 系统中是通过 ssh 服务实现的远程登录功能，默认 ssh 服务端口号为 22。

Window 系统上 Linux 远程登录客户端有 SecureCRT, Putty, SSH Secure Shell 等，本文以 Putty 为例来登录远程服务器。

Putty 下载地址：https://www.putty.org/

在设置好免秘钥登录的配置后，我们就可以，在一台计算机中登录奴隶机，还是免密码登录，因为通过SSH协议通过的时候是要密码的

标签： hadoop 大数据 hdfs

本文转载自: https://blog.csdn.net/weixin_44943389/article/details/127119427
版权归原作者 王摇摆 所有，如有侵权，请联系我们删除。