Hadoop 中的大数据技术：调优篇（1）

第1章 HDFS—核心参数

1.1 NameNode内存生产配置

NameNode内存计算每个文件块大约占用150字节。以一台服务器128GB内存为例，可以存储多少文件块？- 128×1024×1024×1024128×1024×1024×1024 / 150 字节 ≈ 9.1亿- G | MB | KB | 字节
Hadoop 2.x系列，配置NameNode内存NameNode内存默认为2000MB，如果服务器内存为4GB，NameNode内存可以配置为3GB。在hadoop-env.sh文件中配置如下：HADOOP_NAMENODE_OPTS=-Xmx3072m
Hadoop 3.x系列，配置NameNode内存hadoop-env.sh中描述Hadoop的内存是动态分配的# The maximum amount of heap to use (Java -Xmx). If no unit# is provided, it will be converted to MB. Daemons will# prefer any Xmx setting in their respective _OPT variable.# There is no default; the JVM will autoscale based upon machine# memory size.# export HADOOP_HEAPSIZE_MAX=# The minimum amount of heap to use (Java -Xms). If no unit# is provided, it will be converted to MB. Daemons will# prefer any Xms setting in their respective _OPT variable.# There is no default; the JVM will autoscale based upon machine# memory size.# export HADOOP_HEAPSIZE_MIN=HADOOP_NAMENODE_OPTS=-Xmx102400m查看NameNode占用内存[lzl@hadoop12 ~]$ jps3088 NodeManager2611 NameNode3271 JobHistoryServer2744 DataNode3579 Jps[lzl@hadoop12 ~]$ jmap -heap 2611Heap Configuration: MaxHeapSize = 1031798784 (984.0MB)查看DataNode占用内存[lzl@hadoop12 ~]$ jmap -heap 2744Heap Configuration: MaxHeapSize = 1031798784 (984.0MB)- 发现hadoop12上的NameNode和DataNode占用内存都是自动分配的，且相等。这并不很合理。- 经验参考：- 具体修改：hadoop-env.shexport HDFS_NAMENODE_OPTS="-Dhadoop.security.logger=INFO,RFAS -Xmx1024m"export HDFS_DATANODE_OPTS="-Dhadoop.security.logger=ERROR,RFAS -Xmx1024m"

1.2 NameNode心跳并发配置

hdfs-site.xml配置NameNode有一个工作线程池，用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。对于大集群或有大量客户端的集群来说，通常需要增大该参数。默认值是10。<property> <name>dfs.namenode.handler.count</name> <value>21</value></property>企业经验：dfs.namenode.handler.count，例如集群规模（DataNode台数）为3台时，此参数设置为21。可以通过简单的Python代码计算该值，代码如下：[lzl@hadoop12 ~]$ sudo yum install -y python[lzl@hadoop12 ~]$ python>>> import math>>> print(int(20 * math.log(3)))21>>> quit()

1.3 开启回收站配置

回收站工作机制
开启回收站功能参数说明- 默认值fs.trash.interval = 0，0表示禁用回收站；其他值表示设置文件的存活时间。- 默认值fs.trash.checkpoint.interval = 0，检查回收站的间隔时间。如果该值为0，则该值设置等于fs.trash.interval的参数值。- 要求fs.trash.checkpoint.interval <= fs.trash.interval。
启用回收站修改core-site.xml，配置垃圾回收时间为1分钟。<property> <name>fs.trash.interval</name> <value>1</value></property>
查看回收站- 回收站目录在HDFS集群中的路径：/user/lzl/.Trash/….
注意：通过网页直接删除的文件不会走回收站。
通过程序删除的文件不会经过回收站，需要调用moveToTrash()才进入回收站Trash trash = New Trash(conf);trash.moveToTrash(path);
只有在命令行利用hadoop fs -rm命令删除的文件才会走回收站[lzl@hadoop12 hadoop-3.1.3]$ hadoop fs -rm -r /user/lzl/input2021-07-14 16:13:42,643 INFO fs.TrashPolicyDefault: Moved: 'hdfs://hadoop12:9820/user/lzl/input' to trash at: hdfs://hadoop12:9820/user/lzl/.Trash/Current/user/lzl/input
恢复回收站数据[lzl@hadoop12 hadoop-3.1.3]$ hadoop fs -mv/user/lzl/.Trash/Current/user/lzl/input /user/lzl/input

第2章 HDFS—集群压测

在企业中非常关心每天从Java后台拉取过来的数据，需要多久能上传到集群？消费者关心多久能从HDFS上拉取需要的数据？

为了了解HDFS的读写性能，生产环境上非常需要对集群进行压力测试。

HDFS的读写性能主要受网络和磁盘的影响较大。为了方便测试，将hadoop12、hadoop13、hadoop14虚拟机网络都设置为100Mbps。

100Mbps单位是比特；10MB/s单位是字节；1字节 = 8比特，因此100Mbps / 8 = 12.5MB/s。

测试网速：来到hadoop12的

/opt/module

目录，创建一个

[lzl@hadoop12 software]$ python -m SimpleHTTPServer

2.1 测试HDFS写性能

写测试底层原理
测试内容：向HDFS集群写入10个128MB的文件[lzl@hadoop12 mapreduce]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB- 日期与时间: Tue Feb 09 10:43:16 CST 2021- 文件数量: 10- 总共处理兆字节数: 1280- 吞吐量 mb/s: 1.61- 平均 IO 速率 mb/s: 1.9- IO 速率标准偏差: 0.76- 测试执行时间秒: 133.05- 注意事项： - nrFiles n为生成mapTask的数量，生产环境一般可通过hadoop13:8088查看CPU核数，设置为（CPU核数 - 1）- Number of files: 生成mapTask数量，一般是集群中（CPU核数-1），我们测试虚拟机就按照实际的物理内存-1分配即可- Total MBytes processed: 单个map处理的文件大小- Throughput mb/secz: 单个mapTask的吞吐量 - 计算方式：处理的总文件大小/每一个mapTask写数据的时间累加- 集群整体吞吐量：生成mapTask数量*单个mapTask的吞吐量- Average IO rate mb/sec: 平均mapTask的吞吐量 - 计算方式：每个mapTask处理文件大小/每一个mapTask写数据的时间- 全部相加除以task数量- IO rate std deviation: 方差、反映各个mapTask处理的差值，越小越均衡
注意：如果测试过程中，出现异常可以在yarn-site.xml中设置虚拟内存检测为false<property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</value></property>分发配置并重启Yarn集群
测试结果分析- 由于副本1就在本地，所以该副本不参与测试- 一共参与测试的文件：10个文件 * 2个副本 = 20个- 压测后的速度：1.61- 实测速度：1.61MB/s * 20个文件 ≈ 32MB/s- 三台服务器的带宽：12.5 + 12.5 + 12.5 ≈ 30Mbps- 所有网络资源都已经用满。- 如果实测速度远远小于网络，并且实测速度不能满足工作需求，可以考虑采用固态硬盘或者增加磁盘个数。- 如果客户端不在集群节点，那么三个副本都参与计算

2.2 测试HDFS读性能

测试内容：读取HDFS集群10个128MB的文件[lzl@hadoop12 mapreduce]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -read -nrFiles 10 -fileSize 128MB- 日期与时间: Tue Feb 09 11:34:15 CST 2021- 文件数量: 10- 总共处理兆字节数: 1280- 吞吐量 mb/s: 200.28- 平均 IO 速率 mb/s: 266.74- IO 速率标准偏差: 143.12- 测试执行时间秒: 20.83
删除测试生成数据[lzl@hadoop12 mapreduce]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -clean
测试结果分析：为什么读取文件速度大于网络带宽？由于目前只有三台服务器，且有三个副本，数据读取遵循就近原则，相当于都是读取的本地磁盘数据，没有走网络。

第3章 HDFS—多目录配置

3.1 NameNode多目录配置

NameNode的本地目录配置- NameNode的本地目录可以配置成多个，每个目录存放相同内容，以提高系统的可靠性和冗余度。
具体配置步骤（1）在hdfs-site.xml文件中添加如下内容：<property> <name>dfs.namenode.name.dir</name> <value>file://${hadoop.tmp.dir}/dfs/name1,file://${hadoop.tmp.dir}/dfs/name2</value></property>- 注意：因为每台服务器节点的磁盘情况不同，所以这个配置完成后，可以选择不分发。（2）停止集群，并删除三台节点的data和logs中所有数据。[lzl@hadoop12 hadoop-3.1.3]$ rm -rf data/ logs/[lzl@hadoop13 hadoop-3.1.3]$ rm -rf data/ logs/[lzl@hadoop14 hadoop-3.1.3]$ rm -rf data/ logs/（3）格式化集群并启动。[lzl@hadoop12 hadoop-3.1.3]$ bin/hdfs namenode -format[lzl@hadoop12 hadoop-3.1.3]$ sbin/start-dfs.sh
查看结果使用ll命令查看name1和name2目录，会发现这两个目录中的内容完全相同。[lzl@hadoop12 dfs]$ ll总用量 12drwx------. 3 lzl lzl 4096 12月 11 08:03 datadrwxrwxr-x. 3 lzl lzl 4096 12月 11 08:03 name1drwxrwxr-x. 3 lzl lzl 4096 12月 11 08:03 name2

3.2 DataNode多目录配置

DataNode多目录配置- DataNode可以配置成多个目录，每个目录存储的数据不同（数据不是副本）。
具体配置步骤在hdfs-site.xml文件中添加如下内容：<property> <name>dfs.datanode.data.dir</name> <value>file://${hadoop.tmp.dir}/dfs/data1,file://${hadoop.tmp.dir}/dfs/data2</value></property>
查看结果使用ll命令查看data1和data2目录，会发现这两个目录中的内容不同。[lzl@hadoop12 dfs]$ ll总用量 12drwx------. 3 lzl lzl 4096 4月 4 14:22 data1drwx------. 3 lzl lzl 4096 4月 4 14:22 data2drwxrwxr-x. 3 lzl lzl 4096 12月 11 08:03 name1drwxrwxr-x. 3 lzl lzl 4096 12月 11 08:03 name2
上传文件后观察- 向集群上传一个文件后，再次观察data1和data2两个文件夹的内容，会发现它们的内容不一致。[lzl@hadoop12 hadoop-3.1.3]$ hadoop fs -put wcinput/word.txt /

3.3 集群数据均衡之磁盘间数据均衡

生产环境需求- 生产环境中，由于硬盘空间不足，往往需要增加一块硬盘。当新硬盘加载后，可以执行磁盘数据均衡命令来平衡各磁盘间的存储负载。
磁盘数据均衡步骤（1）生成均衡计划（仅作示例，实际环境中可能有多块磁盘）hdfs diskbalancer -plan hadoop13（2）执行均衡计划hdfs diskbalancer -execute hadoop13.plan.json（3）查看当前均衡任务的执行情况hdfs diskbalancer -query hadoop13（4）取消均衡任务hdfs diskbalancer -cancel hadoop13.plan.json

第4章 HDFS—集群扩容及缩容

4.1 添加白名单

白名单配置白名单表示允许存储数据的主机IP地址，用于增强安全性，避免恶意访问。
配置步骤（1）在NameNode节点的/opt/module/hadoop-3.1.3/etc/hadoop目录下分别创建whitelist和blacklist文件创建白名单[lzl@hadoop12 hadoop]$ vim whitelist在whitelist中添加如下主机名称，假设集群正常工作的节点为102和103hadoop12hadoop13创建黑名单[lzl@hadoop12 hadoop]$ touch blacklist保持为空即可。（2）在hdfs-site.xml配置文件中增加dfs.hosts配置参数<property> <name>dfs.hosts</name> <value>/opt/module/hadoop-3.1.3/etc/hadoop/whitelist</value></property><property> <name>dfs.hosts.exclude</name> <value>/opt/module/hadoop-3.1.3/etc/hadoop/blacklist</value></property>（3）为了后续方便各个节点文件同步，先创建分发脚本，再分发配置文件whitelist，hdfs-site.xml[lzl@hadoop12 ~]$cd /home/lzl/bin[lzl@hadoop12 ~]$ vim xsync在该文件中编写如下代码#!/bin/bash#1. 判断参数个数if [ $# -lt 1 ]then echo Not Enough Arguement! exit;fi#2. 遍历集群所有机器for host in hadoop12 hadoop13 hadoop14do echo ==================== $host ==================== #3. 遍历所有目录，挨个发送 for file in $@ do #4 判断文件是否存在 if [ -e $file ] then #5. 获取父目录 pdir=$(cd -P $(dirname $file); pwd) #6. 获取当前文件的名称 fname=$(basename $file) ssh $host "mkdir -p $pdir" rsync -av $pdir/$fname $host:$pdir else echo $file does not exists! fi donedone修改脚本xsync具有执行权限[lzl@hadoop12 bin]$ chmod +x xsync测试脚本[lzl@hadoop12 bin]$ xsync xsync分发配置文件whitelist，hdfs-site.xml[lzl@hadoop14 hadoop]$ xsync hdfs-site.xml whitelist（4）第一次添加白名单必须重启集群，如果不是第一次，只需要刷新NameNode节点即可[lzl@hadoop12 hadoop-3.1.3]$ myhadoop.sh stop[lzl@hadoop12 hadoop-3.1.3]$ myhadoop.sh start（5）在Web浏览器上查看DNhttp://hadoop12:9870/dfshealth.html#tab-datanode（6）在hadoop14上尝试上传数据失败[lzl@hadoop14 hadoop-3.1.3]$ hadoop fs -put NOTICE.txt /（7）二次修改白名单，增加hadoop14[lzl@hadoop12 hadoop]$ vim whitelist修改为如下内容hadoop12hadoop13hadoop14（8）刷新NameNode[lzl@hadoop12 hadoop-3.1.3]$ hdfs dfsadmin -refreshNodesRefresh nodes successful

4.2 服役新服务器

需求背景随着公司业务增长，原有的数据节点容量已无法满足存储需求，需要动态添加新的数据节点。
环境准备（1）在hadoop100主机上克隆一台hadoop15主机（2）修改IP地址和主机名[root@hadoop15 ~]# vim /etc/sysconfig/network-scripts/ifcfg-ens33[root@hadoop15 ~]# vim /etc/hostname（3）拷贝hadoop12的/opt/module目录和/etc/profile.d/my_env.sh到hadoop15[lzl@hadoop12 opt]$ scp -r module/* lzl@hadoop15:/opt/module/[lzl@hadoop12 opt]$ sudo scp /etc/profile.d/my_env.sh root@hadoop15:/etc/profile.d/my_env.sh[lzl@hadoop15 hadoop-3.1.3]$ source /etc/profile（4）删除hadoop15上Hadoop的历史数据，包括data和log数据[lzl@hadoop15 hadoop-3.1.3]$ rm -rf data/ logs/（5）配置hadoop12和hadoop13到hadoop15的SSH无密码登录[lzl@hadoop12 .ssh]$ ssh-copy-id hadoop15[lzl@hadoop13 .ssh]$ ssh-copy-id hadoop15
服役新节点的具体步骤（1）直接启动DataNode，使其关联到集群[lzl@hadoop15 hadoop-3.1.3]$ hdfs --daemon start datanode[lzl@hadoop15 hadoop-3.1.3]$ yarn --daemon start nodemanager
在白名单中增加新服役的服务器（1）在白名单whitelist中增加hadoop14、hadoop15，并重启集群[lzl@hadoop12 hadoop]$ vim whitelist修改为如下内容hadoop12hadoop13hadoop14hadoop15（2）分发[lzl@hadoop12 hadoop]$ xsync whitelist（3）刷新NameNode[lzl@hadoop12 hadoop-3.1.3]$ hdfs dfsadmin -refreshNodesRefresh nodes successful
在hadoop15上上传文件[lzl@hadoop15 hadoop-3.1.3]$ hadoop fs -put /opt/module/hadoop-3.1.3/LICENSE.txt /思考：如果数据不均衡（hadoop15数据少，其他节点数据多），如何处理？

4.3 服务器间数据均衡

企业经验- 在企业开发中，如果经常在hadoop12和hadoop14上提交任务，且副本数为2，由于数据本地性原则，会导致hadoop12和hadoop14数据过多，而hadoop13存储的数据量较少。- 新服役的服务器数据量也比较少，需要执行集群均衡命令。
开启数据均衡命令[lzl@hadoop15 hadoop-3.1.3]$ sbin/start-balancer.sh -threshold 10参数10代表集群中各个节点的磁盘空间利用率相差不超过10%，可根据实际情况进行调整。
停止数据均衡命令[lzl@hadoop15 hadoop-3.1.3]$ sbin/stop-balancer.sh注意：由于HDFS需要启动单独的Rebalance Server来执行Rebalance操作，所以尽量不要在NameNode上执行start-balancer.sh，而是找一台比较空闲的机器。

4.4 黑名单退役服务器

黑名单配置黑名单表示不允许存储数据的主机IP地址，用于退役服务器。
配置步骤（1）编辑/opt/module/hadoop-3.1.3/etc/hadoop目录下的blacklist文件[lzl@hadoop12 hadoop] vim blacklist添加如下主机名称（要退役的节点）hadoop15注意：如果白名单中没有配置，需要在hdfs-site.xml配置文件中增加dfs.hosts.exclude配置参数<property> <name>dfs.hosts.exclude</name> <value>/opt/module/hadoop-3.1.3/etc/hadoop/blacklist</value></property>（2）分发配置文件blacklist，hdfs-site.xml[lzl@hadoop14 hadoop]$ xsync hdfs-site.xml blacklist（3）第一次添加黑名单必须重启集群，如果不是第一次，只需要刷新NameNode节点即可[lzl@hadoop12 hadoop-3.1.3]$ hdfs dfsadmin -refreshNodes2Refresh nodes successful（4）检查Web浏览器，退役节点的状态为decommission in progress（退役中），说明数据节点正在复制块到其他节点（5）等待退役节点状态为decommissioned（所有块已经复制完成），停止该节点及节点资源管理器[lzl@hadoop15 hadoop-3.1.3]$ hdfs --daemon stop datanodestopping datanode[lzl@hadoop15 hadoop-3.1.3]$ yarn --daemon stop nodemanagerstopping nodemanager注意：如果副本数是3，服役的节点小于等于3，是不能退役成功的，需要修改副本数后才能退役。（6）如果数据不均衡，可以用命令实现集群的再平衡[lzl@hadoop12 hadoop-3.1.3]$ sbin/start-balancer.sh -threshold 10

标签：大数据 hadoop 分布式

本文转载自: https://blog.csdn.net/qq_45115959/article/details/141232295
版权归原作者 大数据深度洞察 所有，如有侵权，请联系我们删除。

Hadoop 中的大数据技术：调优篇（1）

Hadoop 中的大数据技术：调优篇（1）

第1章 HDFS—核心参数

1.1 NameNode内存生产配置

1.2 NameNode心跳并发配置

1.3 开启回收站配置

第2章 HDFS—集群压测

2.1 测试HDFS写性能

2.2 测试HDFS读性能

第3章 HDFS—多目录配置

3.1 NameNode多目录配置

3.2 DataNode多目录配置

3.3 集群数据均衡之磁盘间数据均衡

第4章 HDFS—集群扩容及缩容

4.1 添加白名单

4.2 服役新服务器

4.3 服务器间数据均衡

4.4 黑名单退役服务器

发表评论

“Hadoop 中的大数据技术：调优篇（1）”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航