0


大数据-kafka学习(八)—— 生产调优、硬件配置选择

一、场景说明

100万日活,每人每天100条日志,每天总共的日志条数上100万*100条=1亿条

1亿/24小时/60分/60秒=1150条/每分钟

每条日志大小:0.5K-2K(取1K)

1150条/每分钟*1K≈ 1m/s

高峰期每分钟:1150条*20倍 = 23000条。

每秒多少数据量:20MB/s。

二、服务器台数选择

服务器台数 = 2(生产者峰值生产速率副本/100)+1

= 2*(20m/s * 2/100)+1 = 3 (台)

三、磁盘选择

Kafka按照顺序读写,机械硬盘和固态硬盘 顺序读写速度差不多

            建议选择普通的机械硬盘

1亿条 * 1K = 100G

100G2个副本3天/0.7 = 1T

建议三台服务器总的磁盘大小 大于1T

四、 内存选择

1)堆内存:Kafka堆内存建议每个节点:10G~15G

1、在kafka-server-start.sh中修改

if [ "x$KAFKA_HEAP_OPTS" = "x" ]; then

    export KAFKA_HEAP_OPTS="-Xmx1G -Xms1G"

fi

2、查看kafka进程号 JPS

jps
73639 SpringbootKafkaApplication
72966 Kafka
73638 Launcher
21591 ZooKeeperMain

3、根据kafka进程号,查看Kafka的GC情况

 jstat -gc 75638 1s 10
 S0C    S1C    S0U    S1U      EC       EU        OC         OU       MC     MU    CCSC   CCSU   YGC     YGCT    FGC    FGCT     GCT   
 0.0   7168.0  0.0   7168.0 48128.0   9216.0   993280.0   154109.0  48636.0 43913.9 6396.0 5806.5      7    0.162   0      0.000    0.162
 0.0   7168.0  0.0   7168.0 48128.0   9216.0   993280.0   154109.0  48636.0 43913.9 6396.0 5806.5      7    0.162   0      0.000    0.162
 0.0   7168.0  0.0   7168.0 48128.0   9216.0   993280.0   154109.0  48636.0 43913.9 6396.0 5806.5      7    0.162   0      0.000    0.162
 0.0   7168.0  0.0   7168.0 48128.0   9216.0   993280.0   154109.0  48636.0 43913.9 6396.0 5806.5      7    0.162   0      0.000    0.162
 0.0   7168.0  0.0   7168.0 48128.0   9216.0   993280.0   154109.0  48636.0 43913.9 6396.0 5806.5      7    0.162   0      0.000    0.162
 0.0   7168.0  0.0   7168.0 48128.0   9216.0   993280.0   154109.0  48636.0 43913.9 6396.0 5806.5      7    0.162   0      0.000    0.162
 0.0   7168.0  0.0   7168.0 48128.0   9216.0   993280.0   154109.0  48636.0 43913.9 6396.0 5806.5      7    0.162   0      0.000    0.162
 0.0   7168.0  0.0   7168.0 48128.0  10240.0   993280.0   154109.0  48636.0 43913.9 6396.0 5806.5      7    0.162   0      0.000    0.162
 0.0   7168.0  0.0   7168.0 48128.0  10240.0   993280.0   154109.0  48636.0 43913.9 6396.0 5806.5      7    0.162   0      0.000    0.162
 0.0   7168.0  0.0   7168.0 48128.0  10240.0   993280.0   154109.0  48636.0 43913.9 6396.0 5806.5      7    0.162   0      0.000    0.162

S0C:第一个幸存区的大小 S1C: 第二个幸存区的大小

S0U: 第一个幸存区的使用大小 S1U:第二个幸存区的使用大小

EC:伊甸园区的大小 EU:伊甸园区的使用大小

OC: 老年代大小 OU:老年代使用大小

MC: 方法区大小 MU:方法区使用大小

CCSC:压缩类空间大小 CCSU:压缩类空间使用大小

YGC:年轻代垃圾回收次数 YGCT:年轻代垃圾回收消耗时间

FGC: 老年代垃圾回收次数 FGCT:老年代垃圾回收消耗时间

GCT: 垃圾回收消耗总时间

4、根据Kafka进程号,查看Kafka的堆内存

jmap -heap 75638

2)页缓存:

页缓存上Linux系统服务器的内存,我们只需要保证1个segment(1g)中25%的数据在内存中就好。

每个节点页缓存大小=(分区数1g25%)/节点数。

例如10个分区,页缓存大小=(分区数Leader(10)1g25%)/3≈ 1g

一台服务器 10g+1g

建议服务器内存大于等于11G。

五、 CPU选择

num.io.threads=8 负责写磁盘的线程数,整个参数值要占到总核数的50%。

num.replica.fetchers=1 副本拉取线程数,这个参数占总核数的50%的1/3。

num.network.threads=3 数据传输线程数,这个线程占总核数的50%的2/3。

建议32个CPU CORE

六、网络选择

网络带宽=峰值吞吐量≈ 20MB/s。选择千兆网卡即可。

100Mbps单位数bit;10M/s单位数byte ; 1byte = 8bit,100Mbps/8= 12.5M/s

一般的百兆的网卡(100Mbps)、千兆的网卡(1000Mbps)、万兆的网卡(10000Mbps)。

标签: java kafka 大数据

本文转载自: https://blog.csdn.net/a6470831/article/details/124205760
版权归原作者 机智兵 所有, 如有侵权,请联系我们删除。

“大数据-kafka学习(八)—— 生产调优、硬件配置选择”的评论:

还没有评论