大数据 Flink - overfit.cn

Flink基本原理剖析讲解

Flink是一个批处理和流处理结合的统一计算框架，其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理，是业界最顶级的开源流处理引擎。Flink最适合的应用场景是低时延的数据处理（Data Processing）场景：高并发pipeline处理数据，时延毫秒级，且兼具可靠性

overfit同步小助手 2024-06-01 03:04:04 0 收藏

Flink之Watermark

punctuated:每条数据后都会插入当前事件时间解析出来的watermarkperiodic:周期性生成，默认是200m生成一个watermark在新版本中punctuated已经被标记为过时(当前版本1.18.1)watermark的构造：1.forMontonousTimestamps:时间

overfit同步小助手 2024-06-01 01:03:36 0 收藏

如何使用Flink连接openGauss数据库（flink-cdc-connector）

本文会在最后附上代码修改的git patch首先简单介绍下flink，Apache Flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和管道方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程

overfit同步小助手 2024-05-31 19:03:32 0 收藏

flink cdc 连接池不可用异常问题排查解决

解决办法：修改连接池大小，重启集群。详细操作加微信：wxjffj。

overfit同步小助手 2024-05-31 09:03:49 0 收藏

Flink checkpoint 源码分析- Flink Checkpoint 触发流程分析

Flink的checkpoint的过程依赖于异步屏障快照算法，该算法在《Lightweight Asynchronous Snapshots for Distributed Dataflows》这篇paper中被提出。理解了这篇paper也就明白了flink的chekpoint机制。paper整体来

overfit同步小助手 2024-05-30 13:03:35 0 收藏

flink sql 优化

不是所有job资源越堆越多好。有时作业的复杂或数据的特殊情况(外部系统性能除外，例如写数据库)，增加资源只会让job性能越来越差或报错(亲身经历job性能差，特别痛苦，一直加资源性能还是差或运行报错)。需要不断找根源问题，多使用不同方法测试才能找到适合job的处理性能。如果优化很多次后job性能还是

overfit同步小助手 2024-05-30 12:03:39 0 收藏

19、Flink 的 State Backends 配置详解

Flink 的 State Backends 配置详解

overfit同步小助手 2024-05-30 11:03:27 0 收藏

Flink CDC 原理

Flink CDC（Change Data Capture）是 Apache Flink 提供的一个变更数据捕获工具集。它可以监控数据库的变更，并将这些变更实时地以流的形式提供给下游系统，这些变更包括插入、更新和删除操作。Flink CDC 适用于需要实时数据管道和数据流处理的场景，如实时数据分析、

overfit同步小助手 2024-05-30 06:03:28 0 收藏

Flink时间语义 | 大数据技术

Flink中，时间通常分为三类EventTime:事件(数据)时间,是事件/数据真真正正发生时/产生时的时间IngestionTime:摄入时间,是事件/数据到达流处理系统的时间ProcessingTime:处理时间,是事件/数据被处理/计算时的系统的时间Flink的三种时间语义中，处理时间和摄入时

overfit同步小助手 2024-05-30 04:03:49 0 收藏

记录一次脏数据导致flink任务失败的处理

这个报错，我记得以前有字符长度不够时，日志会记录是哪个字段长度不够导致的，但这次的日志没有指出具体是哪个字段有问题，排查发现应该不是mysql字段长度不够导致，后来在网上看可能是时间类型字段不匹配也会导致此报错。最终抓取到异常数据，有个日期相关的字段值为‘0024-01-16’（正确的应该为2024

overfit同步小助手 2024-05-30 01:03:54 0 收藏

【flink报错】flink cdc无主键时的操作

flink cdc无主键的问题

overfit同步小助手 2024-05-29 09:03:59 0 收藏

Flink背压问题：从原理到源码

Flink对于背压的处理是通过在任务传递之间设置有界容量的数据缓冲区，当整个管道中有一个下游任务速度变慢，会导致缓存区数据变满，上游任务获取不到可用的缓冲区，自然而然地被阻塞和降速，这就实现了背压。不同taskManager通信通过Netty， Netty的 Buffer 是无界的，但可以设置 Ne

overfit同步小助手 2024-05-29 07:03:20 0 收藏

17、Flink 的 Checkpointing 配置详解

Flink 的 Checkpointing 配置详解

overfit同步小助手 2024-05-28 08:03:39 0 收藏

FLINK SQL 1.17.1读取KAFKA数据，实时计算后写入MYSQL

为了后续搭建实时数据做准备，测试使用FLINK SQL实时读取KAFKA数据，通过实时计算后，写入MYSQL。原始数据为仿造的保单表和险种表的数据，在kafka中创建两张贴源层表：保单表和险种表，再建一张关联表和一张汇总表，然后将数据写入mysql。

overfit同步小助手 2024-05-28 07:03:51 0 收藏

StreamX流批一体一站式大数据平台：大数据Flink可视化工具的革命性突破，让你的数据更高效、更直观！

StreamX，开源的流批一体一站式大数据平台，致力于让Flink开发更简单。它极大地降低了学习成本和开发门槛，使开发者可以专注于最核心的业务。StreamX支持Flink多版本，与Flink SQL WebIDE兼容，并可以进行Flink SQL校验。此外，StreamX还提供了一套标准化的配置

overfit同步小助手 2024-05-28 04:03:39 0 收藏

Flink 组件详解及任务提交流程

控制一个应用程序执行的主进程，也就是说，每个应用程序都会被一个不同的Jobmanager所控制执行Jobmanager会先接收到要执行的应用程序，这个应用程序会包括：作业图（ Job Graph）、逻辑数据流图（ ogical dataflow graph）和打包了所有的类、库和其它资源的JAR包。

overfit同步小助手 2024-05-28 01:03:47 0 收藏

数据仓库内容分享(七)：Flink CDC 实现海量数据实时同步转换

在 Flink CDC 1.x 版本中，如果想实现 exactly-once 同步，需要配合 Flink 提供的 checkpoint 机制,全量阶段没有做切片，则只能在一个 checkpoint 里完成，这会导致一个问题：每个 checkpoint 中间要将这张表的全量数据吐给下游的 writer

overfit同步小助手 2024-05-27 23:03:56 0 收藏

PyFlink使用教程，Flink，Python，Java

overfit同步小助手 2024-05-27 17:03:59 0 收藏

一次Flink on yarn 任务JobManager内存超用问题排查

有道实时平台的所有flink任务运行在yarn集群上，前段时间，为提升和改善有道flink任务运行稳定性，对实时yarn集群进行了迁移（将实时yarn nodemanger机器进行独立，并将所有实时任务迁移至新机器上）。迁移后，发现约200个任务频繁发生JobManager重试，几乎每30min出现

overfit同步小助手 2024-05-27 15:03:44 0 收藏