大数据 Flink - overfit.cn

Flink中ExecutionGraph的构建

在JobGraph向ExecutionGraph转化的过程中，主要的工作内容根据Operator的并行度来拆分JobVertext,每一个Jobvertex根据自身并行度会拆分成多个ExecutionVertex,使用IntermediateResultPartition对象来接收Execution

overfit同步小助手 2024-02-27 01:03:40 0 收藏

Flink的SQL开发

Table API和SQL是最上层的API，在Flink中这两种API被集成在一起，SQL执行的对象也是Flink中的表（Table），所以我们一般会认为它们是一体的。Flink是批流统一的处理框架，无论是批处理（DataSet API）还是流处理（DataStream API），在上层应用中都可以

overfit同步小助手 2024-02-26 22:03:39 0 收藏

Flink CDC 实时抽取 Oracle 数据-排错&调优

Flink CDC 于 2021 年 11 月 15 日发布了最新版本 2.1，该版本通过引入内置 Debezium 组件，增加了对 Oracle 的支持。对该版本进行试用并成功实现了对 Oracle 的实时数据捕获以及性能调优，现将试用过程中的一些关键细节进行分享。

overfit同步小助手 2024-02-26 19:03:20 0 收藏

深入理解 Flink（七）Flink Slot 管理详解

Flink 的 slot 管理分为 ResourceManager、TaskExecutor、JobMaster 3 个部分，本章节结合 Flink 源码对上述 3 个部分的协作关系、具体实现进行了深入剖析。

overfit同步小助手 2024-02-26 18:03:54 0 收藏

flink sql 实战实例及延伸问题：聚合/数据倾斜/DAU/Hive流批一体等

核心问题在于成本过高。甚至可以使用 10 分钟级别的分区策略，使用 Flink 的 Hive streaming source 和 Hive streaming sink ，可以大大提高 Hive 数仓的实时性到准实时分钟级，在实时化的同时，也支持针对 Table 全量的 Ad-hoc 查询，提高灵

overfit同步小助手 2024-02-26 16:03:18 0 收藏

记一次flink的job manager overuse情况

以前一直没出现过jm overuse的情况，今天刚好遇到，记录一下。18：21：36就已经失败shutting down了，而1。作业频繁重启又自行恢复，陷入循环。目前设置的是2G，需要。任务在18：21出现。

overfit同步小助手 2024-02-26 12:03:20 0 收藏

flink-1.17.2的单节点部署

Apache Flink 是一个开源的流处理和批处理框架，用于大数据处理和分析。它旨在以实时和批处理模式高效处理大量数据。Flink 支持事件时间处理、精确一次语义、有状态计算等关键功能。总体而言，Apache Flink 是构建实时和批处理数据处理应用程序的强大而灵活的框架，适用于大数据领域的各种

overfit同步小助手 2024-02-26 11:06:02 0 收藏

FlinkSql通用调优策略

使用DataGenerator 提前进行压测，了解数据的处理瓶颈、性能测试和消费能力开启minibatch："table.exec.mini-batch.enabled", "true"开启Local+Global 两阶段聚合："table.exec.mini-batch.enabled", "tr

overfit同步小助手 2024-02-26 06:03:46 0 收藏

Flink 1.17教程：并行度设置&优先级

在Flink中，可以用不同的方法来设置并行度，它们的有效范围和优先级别也是不同的。

overfit同步小助手 2024-02-26 05:03:41 0 收藏

python安装apache-flink报错

flink安装和报错解答

overfit同步小助手 2024-02-26 03:03:42 0 收藏

Flink中的容错机制

如果出现故障，我们恢复到之前保存的状态，故障时正在处理的所有数据都需要重新处理；我们只需要让源（source）任务向数据源重新提交偏移量、请求重放数据就可以了(即重新将故障时的数据读入Flink)。当然这需要源任务可以把偏移量作为算子状态保存下来，而且外部数据源能够重置偏移量；

overfit同步小助手 2024-02-26 02:03:26 0 收藏

【大数据面试题】007 谈一谈 Flink 背压

在流式处理框架中，如果下游的处理速度，比上游的输入数据小，就会导致程序处理慢，不稳定，甚至出现崩溃等问题。

overfit同步小助手 2024-02-25 17:03:51 0 收藏

Flink基础篇｜001_Flink是什么

我们通常说的Flink是来Apache Flink，他是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。此外，Flink的运行时本身也支持

overfit同步小助手 2024-02-25 06:03:33 0 收藏

【Flink-1.17-教程】-【五】Flink 中的时间和窗口（1）窗口（Window）

在批处理统计中，我们可以等待一批数据都到齐后，统一处理。但是在实时处理统计中，我们是来一条就得处理一条，那么我们怎么统计最近一段时间内的数据呢？引入“窗口”。所谓的“窗口”，一般就是划定的一段时间范围，也就是“时间窗”；对在这范围内的数据进行处理，就是所谓的窗口计算。所以窗口和时间往往是分不开的。接

overfit同步小助手 2024-02-25 04:03:54 0 收藏

flink多流操作（connect cogroup union broadcast）

2 connect连接操作2.1 connect 连接（DataStream,DataStream→ConnectedStreams)connect 翻译成中文意为连接，可以将两个数据类型一样也可以类型不一样 DataStream 连接成一个新的 ConnectedStreams。需要注意的是，c

overfit同步小助手 2024-02-25 03:03:43 0 收藏

59、Flink CEP - Flink的复杂事件处理介绍及示例（4）- 延迟数据处理和三个实际应用示例

一、Flink 专栏Flink 专栏系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。

overfit同步小助手 2024-02-23 13:03:52 0 收藏

Flink的流式数据流式计算

1.背景介绍流式数据流式计算是一种处理大规模、高速、实时数据的技术，它的核心是在数据流中进行实时计算和分析。随着大数据时代的到来，流式数据处理技术已经成为了一种必须掌握的技能。Apache Flink是一种流式数据处理框架，它可以处理大规模、高速的数据流，并提供实时计算和分析功能。在本文中，我们将深

overfit同步小助手 2024-02-23 08:03:43 0 收藏

Flink容错机制

在恢复时，Flink将从最近的检查点中读取状态数据，并尝试将任务恢复到该检查点之前的状态。总之，Flink的保存点功能为用户提供了灵活的状态管理选项，使得用户可以更好地控制和管理Flink作业的状态。更重要的是，在有状态的流处理中，任务需要保持其之前的状态，以便继续处理新数据。总之，Flink的保存

overfit同步小助手 2024-02-23 07:03:50 0 收藏

【大数据】Flink 中的 Slot、Task、Subtask、并行度

通过调整 task slot 的数量，用户可以定义 subtask 如何互相隔离。每个 TaskManager 有一个 slot，这意味着每个 task 组都在单独的 JVM 中运行（例如，可以在单独的容器中启动）。具有多个 slot 意味着更多 subtask 共享同一 JVM。同一 JVM 中的

overfit同步小助手 2024-02-23 05:03:51 0 收藏

【大数据】Flink 架构（三）：事件时间处理

在事件时间模式下，Flink 流式应用处理的所有记录都必须包含时间戳。时间戳将记录和特定时间点进行关联，这些时间点通常是记录所对应事件的发生时间。但实际上应用可以自由选择时间戳的含义，只要保证流记录的时间戳会随着数据流的前进大致递增即可。正如前文所述，基本上所有现实应用场景都会出现一定程度的时间戳乱

overfit同步小助手 2024-02-23 04:03:44 0 收藏