大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

Hadoop(已更完)
HDFS(已更完)
MapReduce(已更完)
Hive(已更完)
Flume(已更完)
Sqoop(已更完)
Zookeeper(已更完)
HBase(已更完)
Redis (已更完)
Kafka(已更完)
Spark(已更完)
Flink(正在更新！)

章节内容

上节完成了如下的内容：

基础环境规划
集群规划
下载安装
Standalone模式启动

在这里插入图片描述

YARN模式部署

在这里插入图片描述

环境变量

登录后复制

vim /etc/profile
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_CLASSPATH=`hadoop classpath`

配置的结果如下图所示：

在这里插入图片描述

退出保存，并刷新环境变量。

yarn-site

登录后复制

cd /opt/servers/hadoop-2.9.2/etc/hadoop
vim yarn-site.xml

我们需要在原来的基础上，写入一些新的内容：

登录后复制

<!-- YRAN Flink 相关 -->
<property>
        <name>yarn.nodemanager.pmem-check-enabled</name>
        <value>false</value>
</property>
<property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
</property>
<property>
        <name>yarn.resourcemanager.address</name>
        <value>h123.wzk.icu:8032</value>
</property>
<property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>h123.wzk.icu:8030</value>
</property>
<property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>h123.wzk.icu:8031</value>
</property>

配置样式如下图所示：

在这里插入图片描述

同步配置

我们需要在：

h121 节点
h122 节点
h123 节点这三台机器上，都配置好一样的内容。

由于配置的过程基本重复，这里就跳过我配置的过程了，大致说一下需要配置的内容：

Flink环境
环境变量profile
yarn-site
停止Flink服务
停止Hadoop集群等服务
停止YARN集群等服务
重启Hadoop集群
重启YARN集群

我这里使用之前的 rsync-script 工具进行同步了：

在这里插入图片描述

漫长的等待之后，可以看到已经传输完毕了：

在这里插入图片描述

停止Hadoop

登录后复制

cd /opt/servers/hadoop-2.9.2/sbin
stop-all.sh

h121

在这里插入图片描述

停止YARN集群

h123

h123节点执行(ResourceManager节点在这里)：

在这里插入图片描述

停止Flink

h121节点执行：

登录后复制

./stop-cluster.sh

在这里插入图片描述

停止结果

h121

(还剩下一个ZK的服务，非必须，想结束的话也可以结束掉)

在这里插入图片描述

h122

在这里插入图片描述

h123

在这里插入图片描述

启动Hadoop集群

一切确认没有问题之后，我们就可以重新启动了。

h121

登录后复制

start-all.sh

在这里插入图片描述

h122

在这里插入图片描述

h123

在这里插入图片描述

启动YARN集群

h123

为了防止YARN启动异常，我们需要到 h123 保证启动一次:

登录后复制

start-yarn.sh

在这里插入图片描述

申请资源

查看帮助

登录后复制

cd /opt/servers/flink-1.11.1/bin/
./yarn-session.sh -h

可以看到该脚本的说明如下：

在这里插入图片描述

测试脚本1 申请资源

登录后复制

./yarn-session.sh -n 2 -tm 800 -s 1 -d

上面的脚本的含义是：

-n 表示申请2个容器这里就是指多少个TaskManager
-s 表示每个TaskManager的Slots数量
-tm 表示每个 TaskManager的内存大小
-d 表示后台的方式运行程序

脚本1 解释

上面的脚本会向YARN申请3个Container，即便写的是2个，因为ApplicationMaster和JobManager有一个额外的容器，一旦将Flink部署到YARN集群中，就会显示JobManger的连接详细信息。

2个Container启动TaskManager -n 2，每个TaskManager拥有1个TaskSlots -s 1，并且向每个TaskManager的Container申请800M的内存，以及一个 ApplicationMaster jobManager
如果不想让Flink YRAN客户端始终运行，那么也可以启动分离的YARN会话，被参数被称为-d或–detached，这种情况下，Flink YARN客户端只会将Flink提交给集群，然后关闭它自己。

整个过程大概是：yarn-session.sh(开辟资源) + Flink run(提交任务)

使用Flink中的yarn-session，会启动两个必要服务JobManager和TaskManager
客户端通过Flink run提交作业
yarn-session 会一直启动，不停的接收客户端提交的作业
这种方式创建的Flink集群会独占资源
如果有大量的作业/任务较小、工作时间短，适合使用这种方式，减少资源创建的时间。

脚本1 执行结果

可以看到一些日志内容：

登录后复制

2024-07-24 16:34:33,236 WARN  org.apache.flink.yarn.configuration.YarnLogConfigUtil        [] - The configuration directory ('/opt/servers/flink-1.11.1/conf') already contains a LOG4J config file.If you want to use logback, then please delete or rename the log configuration file.
2024-07-24 16:34:33,381 INFO  org.apache.hadoop.yarn.client.RMProxy                        [] - Connecting to ResourceManager at h123.wzk.icu/124.223.26.81:8032
2024-07-24 16:34:33,724 INFO  org.apache.flink.runtime.util.config.memory.ProcessMemoryUtils [] - The derived from fraction jvm overhead memory (160.000mb (167772162 bytes)) is less than its min value 192.000mb (201326592 bytes), min value will be used instead
2024-07-24 16:34:33,734 INFO  org.apache.flink.runtime.util.config.memory.ProcessMemoryUtils [] - The derived from fraction jvm overhead memory (172.800mb (181193935 bytes)) is less than its min value 192.000mb (201326592 bytes), min value will be used instead
2024-07-24 16:34:34,210 INFO  org.apache.flink.yarn.YarnClusterDescriptor                  [] - The configured JobManager memory is 1600 MB. YARN will allocate 2048 MB to make up an integer multiple of its minimum allocation memory (1024 MB, configured via 'yarn.scheduler.minimum-allocation-mb'). The extra 448 MB may not be used by Flink.
2024-07-24 16:34:34,211 INFO  org.apache.flink.yarn.YarnClusterDescriptor                  [] - The configured TaskManager memory is 1728 MB. YARN will allocate 2048 MB to make up an integer multiple of its minimum allocation memory (1024 MB, configured via 'yarn.scheduler.minimum-allocation-mb'). The extra 320 MB may not be used by Flink.

运行过程如下图所示：

在这里插入图片描述

测试脚本2 提交运行

我们也可以直接在YARN上提交运行Flink作业(Run a Flink job on YARN)

登录后复制

./flink run -m yarn-cluster -yn 2 -yjm 1024 -ytm 1024 /opt/wzk//WordCount.jar

上述参数的一些解释：

-m JobManager 的地址
-yn TaskManager的个数

停止 yarn-cluster

登录后复制

yarn application -kill application_xxxxxxxxx

脚本2 解释

在这里插入图片描述

标签：大数据 flink

本文转载自: https://blog.csdn.net/cnzzs/article/details/142113036
版权归原作者 egzosn 所有，如有侵权，请联系我们删除。

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

章节内容

YARN模式部署

环境变量

yarn-site

同步配置

停止Hadoop

h121

停止YARN集群

h123

停止Flink

停止结果

h121

h122

h123

启动Hadoop集群

h121

h122

h123

启动YARN集群

h123

申请资源

查看帮助

测试脚本1 申请资源

脚本1 解释

脚本1 执行结果

测试脚本2 提交运行

脚本2 解释

发表评论

“大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航