大数据 Flink - overfit.cn

【Flink】状态管理

根据当前的输入可以直接转换得到输出结果，这种鼻子就是无状态算子，如map,flatMap,filter。

overfit同步小助手 2023-12-11 15:03:28 0 收藏

【FLink】水位线（Watermark）

在Flink中，用来衡量事件时间进展的标记，就被称作“水位线”（Watermark）。说白了就是事件时间戳。

overfit同步小助手 2023-12-11 13:03:49 0 收藏

Flink 本地单机/Standalone集群/YARN模式集群搭建

集群，任务之间相互独立，互不影响，方便管理。任务执行完成之后创建的集群也会消失。现在，您的 Flink系统已启动并正在运行。现在，在本地节点上运行的。分离模式（与当前客户端无关，当客户端提交完任务就结束，不用等到。提供集群中所有节点的列表，这些列表将用作工作节点。，添加该配置表示内存超过分配值，是否

overfit同步小助手 2023-12-11 08:03:22 0 收藏

Flink 使用场景

数据分析任务需要从原始数据中提取有价值的信息和指标。传统的分析方式通常是利用批查询，或将事件记录下来并基于此有限数据集构建应用来完成。为了得到最新数据的分析结果，必须先将它们加入分析数据集并重新执行查询或运行应用，随后将结果写入存储系统或生成报告。借助一些先进的流处理引擎，还可以实时地进行数据分析。

overfit同步小助手 2023-12-10 09:03:11 0 收藏

flink sql 毫秒转date ms转date

【代码】flink sql 毫秒转date ms转date。

overfit同步小助手 2023-12-09 21:03:39 0 收藏

创建第一个 Flink 项目

Flink执行环境主要分为本地环境和集群环境，本地环境主要为了方便用户编写和调试代码使用，而集群环境则被用于正式环境中，可以借助k8s或Mesos等不同的资源管理器部署自己的应用。环境依赖：【1】JDKFlink核心模块均使用 Java开发，所以运行环境需要依赖JDKJDK版本需要保证在1.8以上。

overfit同步小助手 2023-12-09 09:03:42 0 收藏

Flink Table API 读写MySQL

【代码】Flink Table API 读写MySQL。

overfit同步小助手 2023-12-08 23:03:28 0 收藏

各大数据组件数据倾斜的原因和解决办法

在处理大规模数据时，数据倾斜是一个常见的问题。数据倾斜指的是在分布式环境中处理数据时，某些节点上的任务会比其他节点更加繁重，这可能导致性能下降、资源浪费等问题。数据倾斜可能会出现在不同层次的数据处理过程中，例如 map 阶段、reduce 阶段、join 操作等。数据倾斜的背景可以从以下几个方面来解

overfit同步小助手 2023-12-08 13:03:48 0 收藏

【flink】Task 故障恢复详解以及各重启策略适用场景说明

overfit同步小助手 2023-12-07 07:03:12 0 收藏

Flink（七）【输出算子（Sink）】

Flink Sink输出算子

overfit同步小助手 2023-12-06 08:03:38 0 收藏

40、Flink 的Apache Kafka connector（kafka source的介绍及使用示例）-1

1、Flink 部署、概念介绍、source、transformation、sink使用示例、四大基石介绍和示例等系列综合文章链接13、Flink 的table api与sql的基本概念、通用api介绍及入门示例14、Flink 的table api与sql之数据类型: 内置数据类型以及它们的属性1

overfit同步小助手 2023-12-05 21:03:11 0 收藏

Flink Hive Catalog操作案例

在此对Flink读写Hive表操作进行逐步记录，需要指出的是，其中操作Hive分区表和非分区表的DDL有所不同，以下分别记录。

overfit同步小助手 2023-12-04 17:03:44 0 收藏

Flink 的安装与基础编程

Apache Flink是一个分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink以数据并行和流水线方式执行任意流数据程序，它的流水线运行时系统可以执行批处理和流处理程序。此外，Flink 在运行时本身也支持迭代算法的执行。本文简要介绍了（单机与集群模式）Flink的安装以及基本编程方法

overfit同步小助手 2023-12-04 14:03:43 0 收藏

Flink 中KeyBy、分区、分组的正确理解

数据具体去往哪个分区，是通过指定的 key 值先进行一次 hash 再进行一次 murmurHash，通过上述计算得到的值再与并行度进行相应的计算得到。在Flink中，KeyBy作为我们常用的一个聚合类型算子，它可以按照相同的Key对数据进行重新分区，分区之后分配到对应的子任务当中去。Flink中的

overfit同步小助手 2023-12-04 11:03:32 0 收藏

Flink中的窗口

本文主要介绍了窗口的分类以及各个窗口的API

overfit同步小助手 2023-12-03 14:03:22 0 收藏

Flink webui 断点续传

为了数据的准确性，我希望其是新的端口，但是如果我在上述代码修改端口号的话，会浪费很多时间（当然你不嫌麻烦也可以，打开创建好的端口命令是：nc -lp -9999），所以我开始找寻删掉端口的方法，如下。然后我们结束这个项目，通过checkpoint保存的最后的快照点，实现故障恢复。然后找到自己的项目位

overfit同步小助手 2023-12-03 04:03:42 0 收藏

Flink CEP（三）pattern动态更新（附源码）

线上运行的CEP中肯定经常遇到规则变更的情况，如果每次变更时都将任务重启、重新发布是非常不优雅的。本文将介绍CEP Pattern动态注入的原理和实现，文末附上源码地址。

overfit同步小助手 2023-12-02 19:03:35 0 收藏

[flink]一Flink部署|配置文件|提交作业|部署模式|独立模式部署|yarn模式部署

同样由客户端运行应用程序(需要客户端先跑一遍代码，把应用拆分成作业，比如并行度为2，会拆成两个作业，需要启动两个集群)，然后启动集群，作业提交给JobManager，进而分发给TaskManager执行。我们需要先启动一个集群，保持一个会话，在这个会话中通过客户端提交作业(需要客户端先跑一遍代码，把

overfit同步小助手 2023-12-02 16:03:51 0 收藏

flink源码分析之功能组件(二)-kubeclient

本系列是flink源码分析的第二个系列，上一个《flink源码分析之集群与资源》分析集群与资源，本系列分析功能组件，kubeclient，rpc，心跳，高可用，slotpool，rest，metrics，future。其中kubeclient上一个系列介绍过，为了系列完整性，这里“copy”一下。

overfit同步小助手 2023-12-02 16:03:19 0 收藏

【入门Flink】- 05Flink运行时架构以及一些核心概念

Flink运行时架构以及一些核心概念

overfit同步小助手 2023-12-01 15:03:28 0 收藏