大数据 Flink - overfit.cn

大数据-122 - Flink Time Watermark Java代码测试实现Tumbling Window

在使用基于事件时间的窗口时，Flink 依赖 Watermark 来决定何时触发窗口计算。例如，如果你有一个每 10 秒的滚动窗口，当 Watermark 达到某个窗口的结束时间后，Flink 才会触发该窗口的计算。尽管 Watermark 能有效解决乱序问题，但总有可能会出现事件在生成 Water

overfit同步小助手 2024-09-08 09:03:32 0 收藏

大数据-120 - Flink Window 窗口机制-滑动时间窗口、会话窗口-基于时间驱动&基于事件驱动

滑动窗口是固定窗口更广义的一种形式，滑动窗口由固定的窗口长度和滑动间隔组成。Flink 的滑动时间窗口（Sliding Window）是一种常用的窗口机制，适用于处理流式数据时需要在时间范围内定期计算的场景。滑动窗口会按照指定的窗口大小（window size）和滑动步长（slide interva

overfit同步小助手 2024-09-08 09:03:17 0 收藏

4、Flink SQL 与 DataStream API 集成处理 Insert-Only 流详解

Flink SQL 与 DataStream API 集成处理 Insert-Only 流详解

overfit同步小助手 2024-09-08 00:03:37 0 收藏

【Flink】Watermark 在 Flink SQL 中的用法

Flink SQL 中的 Watermark 机制简化了对无序数据的处理。通过定义 Watermark，Flink 可以基于事件时间准确地处理乱序数据，确保数据分析结果的准确性。Watermark 的灵活性允许你根据不同场景定制延迟策略，适应现实数据流的复杂性。

overfit同步小助手 2024-09-07 21:03:22 0 收藏

Apache Flink内存模型

如上图，Flink总内存（Total Process Memory）包含了Flink总内存（Total Flink Memory）和JVM特定内存，Flink总内存又包括JVM堆内存（JVM Heap），托管内存（Managed Momory），直接内存（Direct Memory），下面我们分别

overfit同步小助手 2024-09-07 19:03:21 0 收藏

windows本地kafka和zookeeper单机版

总结:上面总共开启了3个cmd。zookeeper配置环境变量，在cmd中可以不指定路径，直接执行。kafka没有配置环境变量，要有路径执行。在config目录下复制一份zoo_sample.cfg文件到同级目录，然后更改名称为zoo.cfg。server.properties配置完后，需要在kaf

overfit同步小助手 2024-09-07 18:04:01 0 收藏

flink入门案例

flink 入门程序

overfit同步小助手 2024-09-07 15:03:48 0 收藏

大数据-119 - Flink Window总览窗口机制-滚动时间窗口-基于时间驱动&基于事件驱动

Flink 的滚动时间窗口（Tumbling Window）是一种常见的基于时间的窗口机制，可以通过事件驱动进行计算。通俗讲，Window是用来对一个无限的流的设置一个有限的集合，从而有界数据集上进行操作的一种机制，流上的集合由Window来划定范围，比如“计算过去10分钟”或者“最后50个元素的和

overfit同步小助手 2024-09-07 08:03:37 0 收藏

谈一谈Flinksql的Join和Lookupjoin的区别

在实时数仓中，通过动态查询、内存优化、高效处理大规模数据以及灵活的数据源连接，能够更好地满足实时性要求和资源利用效率，因此被更广泛地应用在实时数仓中使用普通JOIN会面临内存消耗大、延迟高、扩展性差、数据倾斜、动态数据处理困难以及难以与外部系统集成等问题。这些缺点使得普通JOIN难以满足实时数仓对于

overfit同步小助手 2024-09-07 07:03:34 0 收藏

Flink1.18 同步 MySQL 到 Doris

修改我们的配置文件my.cnf重启 mysql。

overfit同步小助手 2024-09-07 03:03:46 0 收藏

大数据-118 - Flink DataSet 基本介绍核心特性创建、转换、输出等

上节研究了Flink的Sink的案例：SinkJDBC，SinkKafka，并且附带了代码的实现案例，本节继续研究FlinkDataSet，包含基本介绍、特性等。Flink 的官方路线图中已经不再优先开发 DataSet API 的新特性，未来的主要开发将集中在 DataStream API，甚至批

overfit同步小助手 2024-09-06 22:03:15 0 收藏

大数据-113 Flink DataStreamAPI 程序输入源自定义输入源非并行源与并行源

上节研究了Flink的DataStreamAPI，文件、Socket、集合、连接器等内容。本节研究自定义的输入源，包含非并行源与并行源。在 Apache Flink 中，非并行源（Non-Parallel Source）是一种特殊的源操作（Source Operator），它的最大并行度被限制为 1

overfit同步小助手 2024-09-06 20:03:34 0 收藏

flink 核心概念（个人总结）

状态：在处理数据时，flink可以维护状态，这对于实现复杂逻辑如窗口操作和聚合是有必要的。flink支持有状态的流处理，它可以存储和访问数据流处理过程中的状态信息。窗口是处理无界数据流的一种方法，它将数据流切分成有限大小的块进行处理。b.有界数据流：有明确开始和结束点的数据流，例如批量处理的历史数据

overfit同步小助手 2024-09-06 08:04:05 0 收藏

大数据Flink（一百零九）：阿里云Flink的基本名称概念

通过了解实时计算Flink版产品基本概念的层次结构，为后期作业开发、作业部署、作业运维和安全管理等操作提供思路。实时计算Flink版产品基本概念的层次结构如下图所示。工作空间（Workspace）工作空间是Flink全托管管理项目空间的基本单元，每个工作空间的计算资源隔离，开发控制台相互独立。创建成

overfit同步小助手 2024-09-06 07:03:39 0 收藏

apache paimon在flink中做维表join的优势

下载源码自己看下有些错的请帮忙提示我# 核心参数- AUTO //默认值- Auto mode, try to use partial mode. //部分更新模式.- FULL- Use full caching mode //rocksdb存全量,可规避常规look up join的缓存穿透

overfit同步小助手 2024-09-05 17:03:24 0 收藏

Flink开发语言大比拼：Java与Scala怎么选好？

选择Flink开发语言是Java还是Scala取决于多个因素的综合考虑。从开发效率、性能、生态系统、可维护性、团队技能、集成与互操作性以及未来发展等多个维度来看，两种语言各有优劣。如果团队已经对Java有深入了解，并且追求稳定性和直观性，Java可能是更适合的选择；Apache Flink是一个开源

overfit同步小助手 2024-09-05 16:03:45 0 收藏

Flink 实时数仓（十）【DWS 层搭建（四）交易域汇总表创建】

Flink DWS 层搭建，交易域省份粒度-下单汇总表、交易域用户-品牌-品类退单汇总表

overfit同步小助手 2024-09-05 06:04:03 0 收藏

[flink]随笔

一个数据流在算子之间传输数据的形式可以是一对一(one to one)的直通(forwarding)模式，也可以是打乱的重分区(redistributing)模式，具体是哪一种形式，取决于算子的种类。比如图中的map和后面的keyBy/window算子之间，以及keyBy/window算子和sink

overfit同步小助手 2024-09-05 06:03:49 0 收藏

大数据-109 Flink 体系结构运行架构 ResourceManager JobManager 组件关系与原理剖析

上节研究了Flink批处理，实现了单词统计Word Count，批处理和流处理。本节研究Flink的体系结构，运行架构，组件关系和原理剖析。Flink的所有操作都叫做Operator，客户端在提交任务的时候会对Operator进行优化操作，能进行合并的Operator会被合并为一个Operator，

overfit同步小助手 2024-09-04 20:03:39 0 收藏

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务

上节研究了Flink的Standalone的部署模式并进行了测试。本节研究Flink的YARN模式部署，集群模式申请资源、提交任务。上面的脚本会向YARN申请3个Container，即便写的是2个，因为ApplicationMaster和JobManager有一个额外的容器，一旦将Flink部署到Y

overfit同步小助手 2024-09-04 19:03:41 0 收藏