大数据 Flink - overfit.cn

关于flink滚动窗口下数据乱序+倾斜，allowedLateness的一个坑

关于解决数据倾斜+数据乱序使用allowedLateness的坑

overfit同步小助手 2024-02-17 07:03:26 0 收藏

flink重温笔记（二）：Flink 流批一体 API 开发——Source 数据源操作

前言：今天是第二天啦！开始学习 Flink 流批一体化开发知识点，重点学习了各类数据源的导入操作，我发现学习编程需要分类记忆，一次一次地猜想 api 作用，然后通过敲代码印证自己的想法，以此理解知识点，加深对api的理解和应用。Tips：我觉得学习 Flink 还是挺有意思的，虽然学习进度有点慢，但

overfit同步小助手 2024-02-17 07:03:15 0 收藏

搭建Flink集群、集群HA高可用以及配置历史服务器

本文介绍了如何搭建一个Flink集群、Flink集群HA高可用，并配置历史服务器以记录Job任务执行的详细信息和状态。

overfit同步小助手 2024-02-17 03:03:45 0 收藏

flink提交流程源码

本文基于flink-1.17版本，对于flink源码学习了解，仅作为个人学习笔记，如有错误，欢迎指正。

overfit同步小助手 2024-02-16 17:03:44 0 收藏

数据挖掘的开源项目与社区：从Scikitlearn到Apache Flink

1.背景介绍数据挖掘是指通过对大量数据进行挖掘和分析，从中发现隐藏的模式、规律和知识的过程。随着数据的增长和复杂性，数据挖掘技术也不断发展和进步。开源项目和社区在这一领域发挥着重要作用，提供了许多高质量的工具和资源。本文将从Scikit-learn到Apache Flink，逐一介绍一些重要的开源项

overfit同步小助手 2024-02-16 16:03:49 0 收藏

Flink 与 Apache Kafka 的完美结合

1.背景介绍大数据时代，数据处理能力成为了企业竞争的核心。随着数据规模的不断增长，传统的数据处理技术已经无法满足企业的需求。为了更好地处理大规模数据，Apache Flink 和 Apache Kafka 等流处理框架和消息队列系统发展迅速。Apache Flink 是一个流处理框架，可以实时处理大

overfit同步小助手 2024-02-16 13:04:06 0 收藏

Flink-容错机制checkpoint

随时存档”确实恢复起来方便，可是需要我们不停地做存档操作。如果每处理一条数据就进行检查点的保存，当大量数据同时到来时，就会耗费很多资源来频繁做检查点，数据处理的速度就会受到影响。所以在Flink中，检查点的保存是周期性触发的，间隔时间可以进行设置。

overfit同步小助手 2024-02-16 11:03:54 0 收藏

Flink 源码学习｜Watermark 与 WatermarkGenerator

当数据源中消息的事件时间单调递增时，当前事件时间（同时也是最大事件时间）就可以充当 watermark，因为后续到达的消息的事件时间一定不会比当前事件时间小。当输入数据流中消息的事件时间不完全有序，但是对于绝大部分元素，滞后时间通常不会超过一个固定的时间长度时，我们可以通过在当前最大事件时间的基础上

overfit同步小助手 2024-02-16 10:03:53 0 收藏

Flink实时物联网数据处理

1.背景介绍物联网(Internet of Things, IoT)是一种通过互联网将物体和物体、物体和人、人与人之间进行信息交换和传输的新兴技术。物联网的发展为各行业带来了巨大的变革，特别是在实时数据处理和分析方面，物联网为我们提供了大量的实时数据，这些数据在很多场景下具有极高的价值。实时数据处理

overfit同步小助手 2024-02-16 07:03:35 0 收藏

Flink

unboundedandboundedFlink的世界观是数据流，对Flink而言，其所要处理的主要场景就是流数据，批数据只是流数据的一个极限特例而已，所以Flink也是一款真正的流批统一的计算引擎。无界流：有定义流的开始，但没有定义流的结束。它们会无休止的产生数据。无界流的数据必须持续处理，即数据

overfit同步小助手 2024-02-16 01:03:47 0 收藏

流式计算框架比较：Apache Flink vs. Apache Stor

1.背景介绍流式计算是一种处理大规模数据流的技术，它可以实时处理大量数据，并提供快速的分析和决策。在大数据时代，流式计算已经成为了一种重要的技术手段，它可以帮助企业更快地响应市场变化，提高业务效率。Apache Flink和Apache Storm是两个流行的流式计算框架，它们都是开源的，具有强大的

overfit同步小助手 2024-02-15 22:03:47 0 收藏

Flink从入门到实践（二）：Flink DataStream API

/ num>@Override@Override// 最终执行的方法，输出到终端});

overfit同步小助手 2024-02-15 13:03:40 0 收藏

【Flink Sink 流数据批量写入数据库】

flink 通过开窗window缓存周期数据构成批，然后下发到sink算子批量写入数据库性能优化

overfit同步小助手 2024-02-15 12:03:41 0 收藏

8 分钟看完这 7000+ 字，Flink 时间窗口和时间语义这对好朋友你一定搞得懂！外送窗口计算和水印一并搞懂！！！

场景1：电商场景中计算每种商品每1min的累计销售额。场景2：我们在观看直播时，直播间的右上角会展示最近1min的在线人数，并且每隔1min会更新一次。场景3：一件商品被推荐给我们时，展示着这个商品累计的销量，并且销量还会不断地更新（假设10s更新一次）。当我们仔细分析这3个场景中计算的实时指标时，

overfit同步小助手 2024-02-15 12:03:30 0 收藏

Flink-CDC实时读Postgresql数据

CDC（Change Data Capture）,变更数据获取的简称，使用CDC我们可以从数据库中获取已提交的更改并将这些更改发送到下游，供下游使用。这些变更可以包括INSERT, DELETE, UPDATE等。用户可以在如下的场景使用cdc：（1）实时数据同步：比如将Postgresql库中的数

overfit同步小助手 2024-02-15 08:03:40 0 收藏

flink词汇表

在检查点期间存储其快照的位置（的 Java 堆或文件系统）。

overfit同步小助手 2024-02-14 14:03:51 0 收藏

Flink多流转换（1）—— 分流&合流

本文介绍了flink多流转换中的分流和河流

overfit同步小助手 2024-02-14 13:03:53 0 收藏

Flink问题解决及性能调优-【Flink根据不同场景状态后端使用调优】

Flink 实时groupby聚合场景操作时，由于使用的是rocksdb状态后端，发现CPU的高负载卡在rocksdb的读写上，导致上游算子背压特别大。通过调优使用hashmap状态后端代替rocksdb状态后端，使吞吐量有了质的飞跃（20倍的性能提升），并分析整理。

overfit同步小助手 2024-02-14 11:03:40 0 收藏

Flink｜《Flink 官方文档 - 应用开发 - Python API - 依赖管理》学习笔记

学习笔记如下：当 PyFlink 在本地运行时，用户可以将第三方 Python 库安装在本地 Python 环境中，并将机器学习模型下载到本地。但是，这个方法在远端运行 PyFlink 作业时无法生效。Python DataStream API 和 Python Table API 都提供了支持各种

overfit同步小助手 2024-02-14 11:03:27 0 收藏

Flink检查点（checkpoint）、保存点（savepoint）的区别和联系

checkpoint和savepoint是Flink为我们提供的作业快照机制，他们都包含有作业状态的持久化副本。1、checkpoint的侧重点是容错，即Flink作业意外失败并重启之后，能够直接从早先打下的checkpoint恢复运行，且不影响作业逻辑的准确性。而savepoint的侧重点是维护，

overfit同步小助手 2024-02-14 08:04:02 0 收藏