大数据 Flink - overfit.cn

Flink on Yarn安装配置

Apache Flink，作为一个开源的分布式处理引擎，近年来在大数据处理领域崭露头角，其独特的流处理和批处理一体化模型，使得它能够在处理无界和有界数据流时展现出卓越的性能。本文旨在对Flink进行简要的前言性介绍，以及他的安装配置。

overfit同步小助手 2024-03-30 16:03:38 0 收藏

Flink 调度源码分析1：拓扑图创建与提交过程

在Flink中，拓扑图提交过程是将用户编写的数据处理逻辑转换为实际可执行的作业并提交到集群运行的过程。首先，用户编写Flink程序，定义数据源、转换操作和输出目标等。然后，Flink会将这些操作转换为一个有向无环图(DAG)，表示数据处理流程。接着，Flink会将DAG图优化并生成作业图，包括任务的

overfit同步小助手 2024-03-30 14:03:53 0 收藏

记一次Flink任务无限期INITIALIZING排查过程

环境：Flink-1.16.1，部署模式：Flink On YARN，现象：Flink程序能正常提交到 YARN，Job状态是 RUNNING，而 Task状态一直处于 **INITIALIZING**，排查思路有...

overfit同步小助手 2024-03-30 04:03:37 0 收藏

(增加细粒度资源管理)深入理解flink的task slot相关概念

深入理解flink的task slot相关概念

overfit同步小助手 2024-03-29 17:03:29 0 收藏

实时数据处理的流式计算框架：Apache Spark Streaming 与 Apache Flink 的实践

1.背景介绍随着互联网的普及和大数据时代的到来，实时数据处理变得越来越重要。实时数据处理技术可以帮助企业更快地响应市场变化，提高业务效率，提升竞争力。在大数据处理领域，流式计算是一个重要的技术，它可以实时处理大量数据，并在数据到达时进行分析和处理。Apache Spark Streaming 和 A

overfit同步小助手 2024-03-29 17:03:19 0 收藏

【Flink】窗口实战：TUMBLE、HOP、SESSION

在流式计算中，流通常是无穷无尽的，我们无法知道什么时候数据源会继续 / 停止发送数据，所以在流上处理聚合事件（count、sum 等）的处理方式与批处理中的处理方式会有所差异。在流上一般用窗口（Window）来限定聚合的范围，例如 “过去 2 分钟网站点击量的计数”、“在最近 100 个人中点赞这个

overfit同步小助手 2024-03-29 13:03:40 0 收藏

Flink技术简介与入门实践

Flink 是一个分布式流处理和批处理计算框架，具有高性能、容错性和灵活性。JobManager：JobManager 是 Flink 集群的主节点，负责接收和处理用户提交的作业。解析和验证用户提交的作业。生成执行计划，并将作业图分发给 TaskManager。协调任务的调度和执行。管理作业的状态和

overfit同步小助手 2024-03-29 05:03:54 0 收藏

二次开发Flink-coGroup算子支持迟到数据通过测输出流提取

coGroup算子开窗到时间关闭之后，迟到数据无法通过测输出流提取，intervalJoin算子提供了api，因为join算子底层就是coGroup算子，所以Join算子也不行。flink版本 v1.17.1。

overfit同步小助手 2024-03-28 06:03:20 0 收藏

【flink番外篇】11、Flink 并行度设置

系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和S

overfit同步小助手 2024-03-28 01:03:32 0 收藏

Flink面试题持续更新【2023-07-21】

需要注意的是，Spark 3.0引入了Structured Streaming，它在Spark Streaming的基础上进行了重构，以支持更高级的流处理功能和与批处理更紧密的一体化。需要注意的是，除了默认的消息语义之外，Flink和Spark Streaming都提供了灵活的配置选项和API，允许

overfit同步小助手 2024-03-27 11:03:39 0 收藏

Flink 性能优化总结（内存配置篇）

flink 性能优化内存配置

overfit同步小助手 2024-03-27 07:03:18 0 收藏

【Flink SQL】Flink SQL 基础概念（五）：SQL 时区问题

首先说一下这个问题的背景：大家想一下离线 Hive 环境中，有遇到过时区相关的问题吗？至少博主目前没有碰到过，因为这个问题在底层的数据集成系统都已经给解决了，小伙伴萌拿到手的 ODS 层表都是已经按照所在地区的时区给格式化好的了。举个例子：小伙伴萌看到日期分区为2022-01-01的 Hive 表时

overfit同步小助手 2024-03-27 00:03:48 0 收藏

Flink Flink数据写入Kafka

flink官方集成了通用的 Kafka 连接器，使用时需要根据生产环境的版本引入相应的依赖。通过socket模拟数据写入Flink之后，Flink将数据写入Kafka。

overfit同步小助手 2024-03-26 13:03:44 0 收藏

【Flink入门修炼】2-1 Flink 四大基石

前一章我们对 Flink 进行了总体的介绍。对 Flink 是什么、能做什么、入门 demo、架构等进行了讲解。本章我们将学习 Flink 重点概念、核心特性等。本篇对 Flink 四大基石进行概括介绍，是 Flink 中非常关键的四个内容。

overfit同步小助手 2024-03-26 05:03:13 0 收藏

Why choose Flink for real-time processing

Why choose Flink[1] Streaming data more truly reflects our lifestyle (real-time chat);[2] Traditional data architecture is based on limited data sets

overfit同步小助手 2024-03-26 02:03:33 0 收藏

Flink 大数据学习详情

flink提交作业和执行任务，需要几个关键组件：客户端（client）：代码由客户端获取并作转换，之后提交给 jobManagerJobManager：就是flink集群里的“管事人”，对作业进行中央调度管理；

overfit同步小助手 2024-03-25 21:03:46 0 收藏

Flink 资源管理

在Flink中，资源管理是一个核心组件，它负责分配和管理计算资源，以确保任务能够高效、稳定地运行。资源管理的目标高效性：确保任务能够充分利用可用的计算资源，达到最佳的处理性能。稳定性：在资源不足或任务失败时，能够优雅地处理并恢复任务，保持系统的稳定运行。资源管理的组件：由Flink Master（也

overfit同步小助手 2024-03-25 20:03:39 0 收藏

【大数据】Flink SQL 语法篇（五）：Regular Join、Interval Join

Join 其实在我们的数仓建设过程中应用是非常广泛的。离线数仓可以说基本上是离不开 Join 的。那么实时数仓的建设也必然离不开 Join，比如日志关联扩充维度数据，构建宽表；日志通过 ID 关联计算 CTR。

overfit同步小助手 2024-03-25 15:03:38 0 收藏

51、Flink的管理执行（执行配置、程序打包和并行执行）的介绍及示例

调用打包后程序的完整流程包括两步：搜索 JAR 文件 manifest 中的 main-class 或 program-class 属性。如果两个属性同时存在，program-class 属性会优先于 main-class 属性。对于 JAR manifest 中两个属性都不存在的情况，命令行和 w

overfit同步小助手 2024-03-24 07:03:56 0 收藏

【Flink】Flink 中的时间和窗口之窗口API使用

窗口的API使用分为和，在定义窗口操作之前，首先就要确定好是基于按键分区Keyed的数据流来开窗还是基于没有按键分区的DataStream上开窗。

overfit同步小助手 2024-03-24 05:03:57 0 收藏