【运维监控】Prometheus+grafana监控flink运行情况

运维监控系列文章入口：【运维监控】系列文章汇总索引

文章目录

本示例通过flink自带的监控信息暴露出来，然后将数据收集到prometheus中，最后通过grafana的dashboard导入模板进行可视化。
本示例分为四个部分，即prometheus、grafana部署、flink配置修改和最后的集成。
说明：本示例中的部署环境没有要求，即应用部署的机器根据实际情况而定，只要网络连通即可。

一、prometheus

参考：【运维监控】prometheus+node exporter+grafana 监控linux机器运行情况关于prometheus的部署。

二、grafana

参考：【运维监控】prometheus+node exporter+grafana 监控linux机器运行情况关于grafana的部署。

三、flink配置修改

flink的部署请参考文章：1、Flink1.12.7或1.13.5详细介绍及本地安装部署、验证
在该文章的基础上，增加如下配置，修改的是flink-conf.yaml配置文件。

metrics.reporter.prom.factory.class: org.apache.flink.metrics.prometheus.PrometheusReporterFactory

配置文件保存后，重启flink集群。由于是集群环境，所以需要将整个集群的配置文件都需要修改，端口可以设置，也可以不设置，不设置端口，默认的是9249。

flink集群启动后，集群的任意服务器都可以按照如下方式访问暴露的指标数据，形如http://server4:9249/，图示如下。
在这里插入图片描述

四、prometheus集成grafana监控flink

1、修改prometheus配置文件

在prometheus的配置文件（prometheus.yml）中添加如下配置部分。作者的flink是集群高可用环境，即jobmanager部署在server1、server2上，taskmanager部署在server1、server2和server3服务器上。

  - job_name: "flink-job-manger"
    static_configs:
      - targets: ["server1:9249","server2:9249"]
    metrics_path: /
  - job_name: "flink-task-manger"
    static_configs:
      - targets: ["server2:9249","server3:9249","server4:9249"]
    metrics_path: /

重启prometheus后，并验证是否收集到监控信息。
查看Prometheus是否监控到运行的flink应用如下图。
在这里插入图片描述
查看prometheus是否收集到监控信息如下图（查询flink_taskmanager_Status_Shuffle_Netty_UsedMemory）