状态后端在检查点期间存储其快照的位置(JobManager 的 Java 堆或文件系统)。
Flink 应用集群#
Flink 应用集群是一个专用的 Flink 集群, 只从一个 Flink 执行 Flink 作业 应用程序。Flink 的生命周期 集群绑定了 Flink 应用的生命周期。
Flink 作业集群#
Flink 作业集群是一个专用的 Flink 集群,它只 执行单个 Flink 作业。Flink 集群的生存期与 Flink Job 的生存期绑定。
Flink 集群#
由(通常)一个 JobManager 和一个或多个 Flink TaskManager 进程组成的分布式系统。
事件#
事件是关于域状态更改的语句,由 应用。事件可以是流或批处理应用程序的输入和/或输出。 事件是特殊类型的记录。
执行图#
请参阅物理图
功能#
函数由用户实现并封装 Flink 程序的应用逻辑。大多数函数都由相应的运算符包装。
实例#
术语实例用于描述运行时特定类型(通常是 Operator 或 Function)的特定实例。由于 Apache Flink 主要是用 Java,这对应于 Java 中 Instance 或 Object 的定义。在 Apache 的上下文中 Flink,术语并行实例也经常被用来强调多个实例 相同的 Operator 或 Function 类型并行运行。
Flink 应用程序#
Flink 应用程序是提交一个或多个 Flink 的 Java 应用程序来自方法(或通过其他方式)的作业。提交 作业通常是通过调用执行环境来完成的。
main()
execute()
应用程序的作业可以提交到长时间运行的 Flink 会话集群,连接到专用的 Flink 应用程序 集群,或 Flink 作业 集群。
Flink 作业#
Flink 作业是通过调用 Flink 应用程序创建和提交的逻辑图(通常也称为数据流图)的运行时表示。
execute()
工作图表#
请参阅逻辑图
Flink 作业管理器#
JobManager 是 Flink 集群的编排器。它包含三个不同的 组件:Flink Resource Manager、Flink Dispatcher 和每个正在运行的 Flink Job 一个 Flink JobMaster。
Flink 作业大师#
JobMasters 是在 JobManager 中运行的组件之一。JobMaster 是 负责监督单个作业任务的执行。
逻辑图#
逻辑图是有向图,其中节点是运算符,边定义运算符的输入/输出关系并对应 到数据流或数据集。通过提交作业创建逻辑图 从 Flink 应用程序。
逻辑图通常也称为数据流图。
托管状态#
托管状态描述已向框架注册的应用程序状态。为 托管状态,Apache Flink 将负责持久性和重新缩放等问题。
算子#
逻辑图的节点。Operator 执行某个操作,即 通常由 Function 执行。源和接收器是数据的特殊运算符 引入和数据出口。
经营链#
一个运营商链由两个或多个连续的运营商组成,没有任何运营商 在两者之间重新分区。同一运营商链中的运营商将记录转发给彼此 直接,无需经过序列化或 Flink 的网络堆栈。
分区#
分区是整个数据流或数据集的独立子集。数据流或 通过将每条记录分配给一个或多个分区,将数据集划分为多个分区。 数据流或数据集的分区由 Tasks 在运行时使用。一个 改变数据流或数据集分区方式的转换通常称为 重新分区。
物理图#
物理图是转换逻辑图以在 分布式运行时。节点是 Tasks,边缘表示输入/输出关系 或数据流或数据集的分区。
记录#
记录是数据集或数据流的构成元素。运算符和函数接收记录作为输入,并发出记录作为输出。
(运行时)执行模式#
DataStream API 程序可以在以下两种执行模式之一中执行:或 。有关详细信息,请参阅执行模式。
BATCH
STREAMING
Flink 会话集群#
一个长时间运行的 Flink 集群,它接受多个 Flink 作业 执行。此 Flink 集群的生命周期不绑定任何 Flink 作业的生命周期。 以前,Flink 会话集群在会话模式下也称为 Flink 集群。与 Flink Application Cluster 相比。
状态后端#
对于流处理程序,Flink 作业的状态后端决定了其状态如何存储在每个 TaskManager(TaskManager 的 Java 堆或(嵌入式) RocksDB)。
子任务#
子任务是负责处理 数据流。术语“子任务”强调同一操作员或操作员链有多个并行任务。
表格程序#
使用 Flink 的关系 API(Table API 或 SQL)声明的管道的通用术语。
任务#
物理图的节点。任务是基本的工作单元,由 Flink 的运行时。任务只封装一个 Operator 或 Operator Chain 的一个并行实例。
Flink 任务管理器#
TaskManager 是 Flink 集群的 worker 进程。任务是 计划到 TaskManager 执行。它们相互通信以交换数据 后续任务。
转型#
转换应用于一个或多个数据流或数据集,并生成一个或多个 输出数据流或数据集。转换可能会更改 基于每条记录,但也可能只更改其分区或执行聚合。虽然 Operator 和 Functions 是 Flink API 的“物理”部分, 转换只是一个 API 概念。具体来说,大多数转换是 由某些运营商实现。
想贡献翻译吗?
版权归原作者 m0_66520412 所有, 如有侵权,请联系我们删除。