0


大数据技术之Hadoop集群配置

bbf48a5f21c2b1999ba1bd00b528c9e6.jpeg

作者简介:大家好我是小唐同学(๑>؂<๑),好久不见,为梦想而努力的小唐又回来了,让我们一起加油!!!

a56fe417a24fd8e65dc73fb5db10b46e.gif

个人主页:小唐同学(๑>؂<๑)的博客主页

目前再学习大数据,现在在初级阶段-刚学Hadoop,若有错误,请指正

目录


一,集群部署规划

(1)NameNode和SecondaryNameNode不要安装在同一台服务器

(2)ResourceManager也很消耗内存,不要和NameNode,SecondaryNamenode配置在同一台机器上b4ebf8c9a9504308a90f214a5874bf75.png

二,配置文件说明

置文件和自定义配置文件

(1)默认配置文件有四种对应Hadoop的四大组件

886d278d15ab41e7a2c02044a8329244.png

(2)自定义配置文件:
**core-site.xml **, **hdfs-site.xml , yarn-site.xml **, mapred-site.xml

这四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上,用户可以根据项目需求重新进行修改配置。($HADOOP_HOME为Hadoop的安装路径)e8b5e0688a6a4a6ca1e61623a6f17d41.png

f1f45b664f6f4a698bea9d0a814718b2.pngc976d26fa8a8469ea3883dab2c5af009.png

273c65506a0546b69d4e1500e37cb8f5.png

三,配置集群:

(1)配置核心文件:

    配置core-site.xml
<configuration>
<!--指定NameNode的地址-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop102:8020</value>
</property>
<!--指定hadoop数据的存储目录-->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-3.1.3/data<value>

</property>
</configuration>

19ee7fa140d74cc2858f6c942a0328c0.png

配置hdfs-site.xml

<configuration>
<!--nn web fangwen dizhi -->

<property>
<name>dfs.namenode.http-address</name>
<value>hadoop102:9870</value>
</property>
<!--2nn web fangwen dizhi -->
<property>
<name>dfs.namenode.secondary.http-address</name>

<value>hadoop104:9868</value>

</property>
</configuration>

43ab946491884bb7b8d6e132b571ebe2.png

<configuration>
<!--指定MR走shuffle-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>
mapreduce_shuffle
</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>
hadoop103
</value>
</property>
<property>
<name>yarn.nodemanager.env-whitelist<name>
<value>JAVA_HOME,HADOOP_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
</configuration>

3afe9d7859fe421f8058ff423b95174d.png

<configuration>
<!--指定MapReduce程序运行在Yarn上-->
<property>
<name>
mapreduce.framework.name
</name>
<value>
yarn
</value>
</property>
</configuration>

024ef966e7a94fb694ca8d73267d8ccb.png

配置完成后在集群上分发配置好的Hadoop配置文件****

4515908da5ba4bef8fa354ad107d2f6c.png

aefbfddb52c64352b90d00a554bd8843.png

上述集群配置完成后,在群起集群之前需要配置workers文件

a0b6d43c73b4456da158864ccb1531af.png

c8acbe4837314589b760b36939d6e31d.png

先切换到Hadoop的目录下

cd  /opt/module/hadoop-3.1.3

切换到Hadoop的文件夹下

cd etc/hadoop/
vim workers

上述命令进入workers文件下(文件不允许有空格和空行)

有几个节点就配置几个名称

ff747c8b3c274f4aaa898424e447db83.png

配置完毕后需要分发一下 分别配置给其他集群内部的服务器

b8d01c7b20a742718d441da19f906978.png

四,格式化节点:

    (1)如果集群是第一次启动,需要初始化(格式化)NameNode,在格式化的过程中我遇到了报错,通过阅读报错信息,重新配置了四个自定义配置文件(建议报错先认真阅读)
hdfs namenode -format

9bece3cbb4d5407f9f895102943fb219.png

221935c0866845bb86361bc36b83c252.png

上述格式化完成

五,启动集群:

启动集群在sbin目录下(在Hadoop的安装目录下)

ad1b1312101d4beea672140c473f302d.png

** 启动HDFS:**83f9276789584241882ff73791276caf.png

启动完毕后用命令jps(jps命令在Hadoop的安装路径下执行,是java提供的一个显示当前所有java进程pid的命令)

7ea57ccf2aff4fc98d1d243875f3585f.png

abb4069ac4a64d0c92f03240d7869480.png

067d410da4e34bce92a26a81c4b3c006.png

可以看到跟我们的集群规划相同

搜索 hadoop102:9870可以看到hdfs存储的数据信息f86329132fce49efaf78b6a908d6c790.png

在配置了ResourceManager的节点(hadoop103启动YARN

3f152883db2f451890011488b61df6f9.png

可以看到三个进程符合集群规划

84b85cc377504fb0bc6b9ab91b642fa9.png

搜素 hadoop103:8088可以看到yarn的资源调度网页

68f8b7ca80404282ab2450043b9d5e7b.png

六,测试集群:

上传文件到集群:

(1)上传小文件:

     ![a2a98bb3ddcc4917a14e149237ba3925.png](https://img-blog.csdnimg.cn/a2a98bb3ddcc4917a14e149237ba3925.png)        ![cb0915972d044b31b13a5e2c07c6af93.png](https://img-blog.csdnimg.cn/cb0915972d044b31b13a5e2c07c6af93.png)

上传带内容的文件到wcinput

26fcadf9b2024bcfa80f8462916ff6e5.png

a47581a78e8147e1a0cb3b1834838a67.png

07c868afd1224e59ae56be483d4d6c7b.png

2c7f23be30304daf82e5d60dc41ea643.png

(2)上传大文件:

1439b45e2fd541d6890aec6b9f5f75fa.png0ad2684cd03c4fceb56ab3a8c847110c.png

回到根部录下可以看到有添加的数据,但是这只是个链接,方便展示,实际存储在datanode节点0e64f1becbbf4e719c31119f55858d6b.png

5e909db7b84f48b49ac0552212ca6303.png

刚开始初始化节点的时候只有name,现在存入数据后出现了data

数据存储的目录:32b115336b074f9fa25d75d0292e20ab.png

/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-2091296116-192.168.10.102-1677829450991/current/finalized/subdir0/subdir0

查看文件内容:
查看小文件直接cat即可

查看大文件:

cat blk_1073741826>>tmp.tar.gz和cat blk_1073741827>>tmp.tar.gz是把这两个拼接成一个jdk压缩包,然后解压发现就是上传的jdk压缩包,所以可以确定hdfs实际上内容存储的位置就是在这里。这里为什么会把jdk的压缩包分为两部分呢?原因就是在hadoop里存储的容量是128MB为一个块,然后jdk的压缩包有180MB,所以一个块存不下,需要两个块,注意块的序号是从0开始的

5966e8c487f443ac8f4c1435283d58eb.png

Hadoop是具有高可用的,所以会有多个备份,不测试显示3分备份,所以在hadoop103,hadoop104上同样的路径有同样的数据

标签: hadoop 大数据 hdfs

本文转载自: https://blog.csdn.net/m0_61469860/article/details/129306592
版权归原作者 小唐同学(๑>؂<๑) 所有, 如有侵权,请联系我们删除。

“大数据技术之Hadoop集群配置”的评论:

还没有评论