0


Hadoop手把手教你生态搭建及项目实战系列(三)Hadoop伪分布式集群模式整体实现

** 整个系列的内容包括:**

(一)环境准备

(二)Hadoop伪分布式集群模式初步实现

(三)Hadoop伪分布式集群模式整体实现

(四)Hadoop完全分布式集群模式初步实现

(五)Hadoop完全分布式集群模式整体实现

(六)HDFS Shell命令

(七)HDFS API客户端操作

(八)MapReduce案例

(九)Hadoop序列化

(十)Hadop I/O

(下面所有截图均用SecureCRT远程登录连接显示)

所需工具和环境:VMWare、centos、SecureCRT(或者xshell等类似远程登录工具)


在 Hadoop 中,伪分布式集群模式是一种在单台机器上模拟分布式环境的模式,适合学习和开发。它介于完全分布式和单节点模式之间,通过在一台计算机上配置多个 Hadoop 节点(如 NameNode、DataNode、ResourceManager、NodeManager 等),实现 Hadoop 集群的基础操作。在伪分布式模式中,Hadoop 的各个服务运行在同一台机器的不同 JVM(Java 虚拟机)中,互相之间通过网络通信,因此能很好地模拟 Hadoop 集群的行为。这种模式适合开发和调试应用,无需额外的硬件资源即可体验分布式系统的操作流程。****伪分布式模式适合新手初步了解 Hadoop 的架构和运行机制,熟悉之后可以向完全分布式模式过渡。

一、配置历史服务器

配置mapred-site.xml

vim etc/hadoop/mapred-site.xml

  1. <!-- MR程序历史服务地址 -->
  2. <property>
  3. <name>mapreduce.jobhistory.address</name>
  4. <value>hadoop:10020</value>
  5. </property>
  6. <!-- MR程序历史服务器web端地址 -->
  7. <property>
  8. <name>mapreduce.jobhistory.webapp.address</name>
  9. <value>hadoop:19888</value>
  10. </property>

启动历史服务器

mapred --daemon start historyserver

查看历史服务器是否启动

查看JobHistory

二、配置日志聚集

日志聚集概念:应用运行完成以后,将程序运行日志信息上传到HDFS系统上。

日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。

注意:开启日志聚集功能,需要重新启动NodeManager 、ResourceManager和JobHistoryServer,对他们依次关闭。

mapred --daemon stop historyserver

yarn --daemon stop nodemanager

yarn --daemon stop resourcemanager

配置yarn-site.xml

vim etc/hadoop/yarn-site.xml (将下列代码添加进配置)

  1. <!-- 开启日志聚集 -->
  2. <property>
  3. <name>yarn.log-aggregation-enable</name>
  4. <value>true</value>
  5. </property>
  6. <!-- 历史日志保存的时间 7天 -->
  7. <property>
  8. <name>yarn.log-aggregation.retain-seconds</name>
  9. <value>604800</value>
  10. </property>

启动命令:

yarn --daemon start resourcemanager

yarn --daemon start nodemanager

mapred --daemon start historyserver


本文转载自: https://blog.csdn.net/yewakui2253/article/details/143676925
版权归原作者 _bukesiyi 所有, 如有侵权,请联系我们删除。

“Hadoop手把手教你生态搭建及项目实战系列(三)Hadoop伪分布式集群模式整体实现”的评论:

还没有评论