大数据 Flink - overfit.cn

Flink流批一体计算（23）：Flink SQL之多流kafka写入多个mysql sink

WITH提供了一种编写辅助语句以用于更大的查询的方法。这些语句通常被称为公共表表达式（CTE），可以被视为定义仅针对一个查询存在的临时视图。json.fail-on-missing-field：在json缺失字段时是否报错。json.ignore-parse-errors：在解析json失败时是否报

overfit同步小助手 2024-03-04 13:03:53 0 收藏

【flink番外篇】15、Flink维表实战之6种实现方式-维表来源于第三方数据源

一、Flink 专栏Flink 专栏系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。

overfit同步小助手 2024-03-04 05:03:50 0 收藏

flinkcdc 3.0 源码学习之任务提交脚本flink-cdc.sh

flinkcdc3.0源码解读第一篇提交脚本flink-cdc.sh解读

overfit同步小助手 2024-03-04 00:03:53 0 收藏

Flink与ApacheHive对比

1.背景介绍1. 背景介绍Apache Flink 和 Apache Hive 都是流行的大数据处理框架，它们在大数据处理领域发挥着重要作用。Apache Flink 是一个流处理框架，专注于实时数据处理，而 Apache Hive 是一个数据仓库工具，用于批处理数据。在本文中，我们将对比这两个框架

overfit同步小助手 2024-03-03 16:03:39 0 收藏

Flink State 状态管理

状态在Flink中叫做State，用来保存中间计算结果或者缓存数据。状态数据的存储和访问在Task内部，如何高效地保存状态数据和使用状态数据。状态数据的备份和恢复作业失败是无法避免的，那么就要考虑如何高效地将状态数据保存下来，避免状态备份降低集群的吞吐量，并且在Failover时恢复作业到失败前的状

overfit同步小助手 2024-03-03 16:03:15 0 收藏

flinkcdc 原理 + 实践

flinkcdc 1.* 痛点flinkcdc 2.* 优点flinkcdc 原理flink cdc datastream / flinkcdc sql 使用

overfit同步小助手 2024-03-03 09:03:52 0 收藏

弱结构化日志 Flink SQL 怎么写？SLS SPL 来帮忙

本文介绍一种使用 SLS SPL 配置 SLS Connector 完成数据结构化的方案，覆盖日志清洗与格式规整场景。

overfit同步小助手 2024-03-03 02:03:19 0 收藏

【大数据面试题】004 Flink状态后端是什么

将状态存储在 FileSystem，如本地文件系统，或 HDFS 文件系统。写入到文件后，如果遇到程序中断停止，能够正常恢复。生产环境中， FsStateBackend 是个不错的选择。所以如果需要更高的性能，可以使用这个状态后端。那作为最热门的实时处理框架，Flink对状态管理是有一套的。那就是状

overfit同步小助手 2024-03-02 14:03:32 0 收藏

Flink 内容分享(一)：Fink原理、实战与性能优化(一)

它支持多种数据源和数据目的地，并且提供了丰富的流处理操作，如窗口化、聚合、过滤、连接和转换等。支持多种数据源和数据目的地：Flink能够从多种数据源中读取数据，并将处理结果输出到多种数据目的地中，如Kafka、Hadoop、Cassandra、ElasticSearch等。这些优化手段可以提高Fli

overfit同步小助手 2024-03-02 09:03:37 0 收藏

【大数据】Flink 内存管理（四）：TaskManager 内存分配（实战篇）

在《Flink 内存管理（一）：设置 Flink 进程内存》中我们提到，必须使用下述三种方法之一配置 Flink 的内存（本地执行除外），否则 Flink 启动将失败。这意味着必须明确配置以下选项子集之一，这些子集没有默认值。

overfit同步小助手 2024-03-02 05:03:45 0 收藏

Flink 实战：如何计算实时热门合约

要实现一个实时热门合约基本需求每隔 5 分钟输出最近一小时交易量最多的前N个合约过滤出属于合约的交易数量解决思路抽取出业务时间戳，告诉 Flink 框架基于业务时间做窗口在所有交易行为数据中，过滤出合约行为进行统计构建滑动窗口，窗口长度为1小时，滑动距离为 5 分钟将KeyedStream中的元素存

overfit同步小助手 2024-03-02 05:03:41 0 收藏

Flink Shuffle、Spark Shuffle、Mr Shuffle 对比

overfit同步小助手 2024-03-02 01:03:51 0 收藏

[ 2024春节 Flink打卡 ] -- 优化(draft)

堆内：taskmanager.memory.task.heap.size，默认none，由Flink内存扣除掉其他部分的内存得到。堆外：taskmanager.memory.task.off-heap.size，默认0，表示不使用堆外内存。堆外：taskmanager.memory.framewor

overfit同步小助手 2024-03-02 00:03:38 0 收藏

【flink番外篇】16、DataStream 和 Table 相互转换示例

系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和S

overfit同步小助手 2024-03-01 23:03:42 0 收藏

39、Flink 的CDC 格式：maxwell部署以及示例

Maxwell是一个CDC（Changelog Data Capture）工具，可以将MySQL中的数据变化实时流式传输到Kafka、Kinesis和其他流式连接器中。Maxwell为变更日志提供了统一的格式模式，并支持使用JSON序列化消息。Flink支持将Maxwell JSON消息解释为INS

overfit同步小助手 2024-03-01 23:03:31 0 收藏

大数据之Flink优化

以计算每个 mid 出现的次数为例，keyby 之前，使用 flatMap 实现 LocalKeyby 功能//Checkpoint 时为了保证 Exactly Once，将 buffer 中的数据保存到该 ListState 中//本地 buffer，存放 local 端缓存的 mid 的 cou

overfit同步小助手 2024-03-01 18:03:49 0 收藏

关于Flink的旁路缓存与异步操作

将数据库中的数据,比较经常访问的数据,保存起来,以减少和硬盘数据库的交互比如: 我们使用mysql时经常查询一个表 , 而这个表又一般不会变化,就可以放在内存中,查找时直接对内存进行查找,而不需要再和mysql交互。

overfit同步小助手 2024-03-01 10:03:58 0 收藏

搭建PyFlink环境(2)

overfit同步小助手 2024-03-01 08:03:51 0 收藏

【大数据】Flink SQL 语法篇（四）：Group 聚合、Over 聚合

Group 聚合定义（支持 Batch / Streaming 任务）：Flink 也支持 Group 聚合。Group 聚合和上面介绍到的窗口聚合的不同之处，就在于 Group 聚合是按照数据的类别进行分组，比如年龄、性别，是横向的；而窗口聚合是在时间粒度上对数据进行分组，是纵向的。如下图所示，就

overfit同步小助手 2024-03-01 05:03:54 0 收藏

Flink｜《Flink 官方文档 - 部署 - 命令行界面 - 提交 PyFlink 作业》学习笔记

提交的 Python 作业，Flink 会执行 python 命令。因此，在启动 Python 作业前，需要先确定当前环境中的 python 命令指向 3.7+ 版本的 Python。命令将 PyFlink 作业提交到 native Kubernetes cluster，这需要一个已经安装了 PyF

overfit同步小助手 2024-03-01 02:03:35 0 收藏