** 整个系列的内容包括:**
(一)环境准备
(二)Hadoop伪分布式集群模式初步实现
(三)Hadoop伪分布式集群模式整体实现
(四)Hadoop完全分布式集群模式初步实现
(五)Hadoop完全分布式集群模式整体实现
(六)HDFS Shell命令
(七)HDFS API客户端操作
(八)MapReduce案例
(九)Hadoop序列化
(十)Hadop I/O
(下面所有截图均用SecureCRT远程登录连接显示)
所需工具和环境:VMWare、centos、SecureCRT(或者xshell等类似远程登录工具)
在 Hadoop 中,伪分布式集群模式是一种在单台机器上模拟分布式环境的模式,适合学习和开发。它介于完全分布式和单节点模式之间,通过在一台计算机上配置多个 Hadoop 节点(如 NameNode、DataNode、ResourceManager、NodeManager 等),实现 Hadoop 集群的基础操作。在伪分布式模式中,Hadoop 的各个服务运行在同一台机器的不同 JVM(Java 虚拟机)中,互相之间通过网络通信,因此能很好地模拟 Hadoop 集群的行为。这种模式适合开发和调试应用,无需额外的硬件资源即可体验分布式系统的操作流程。****伪分布式模式适合新手初步了解 Hadoop 的架构和运行机制,熟悉之后可以向完全分布式模式过渡。
一、配置历史服务器
配置mapred-site.xml
vim etc/hadoop/mapred-site.xml
<!-- MR程序历史服务地址 -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop:10020</value>
</property>
<!-- MR程序历史服务器web端地址 -->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop:19888</value>
</property>
启动历史服务器
mapred --daemon start historyserver
查看历史服务器是否启动
查看JobHistory
二、配置日志聚集
日志聚集概念:应用运行完成以后,将程序运行日志信息上传到HDFS系统上。
日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。
注意:开启日志聚集功能,需要重新启动NodeManager 、ResourceManager和JobHistoryServer,对他们依次关闭。
mapred --daemon stop historyserver
yarn --daemon stop nodemanager
yarn --daemon stop resourcemanager
配置yarn-site.xml
vim etc/hadoop/yarn-site.xml (将下列代码添加进配置)
<!-- 开启日志聚集 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 历史日志保存的时间 7天 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
启动命令:
yarn --daemon start resourcemanager
yarn --daemon start nodemanager
mapred --daemon start historyserver
版权归原作者 _bukesiyi 所有, 如有侵权,请联系我们删除。