大数据 Flink - overfit.cn

Flink 内存梳理与遇到的问题修复

flink

overfit同步小助手 2024-04-09 02:03:50 0 收藏

【Flink SQL】Flink SQL 基础概念（一）：SQL & Table 运行环境、基本概念及常用 API

Table API 是一种集成在 Java、Scala 和 Python 语言中的查询 API，简单理解就是用 Java、Scala、Python 按照 SQL 的查询接口封装了一层 lambda 表达式的查询 API，它允许以强类型接口的方式组合各种关系运算符（如选择、筛选和联接）的查询操作，然后

overfit同步小助手 2024-04-08 07:03:48 0 收藏

Spark+Flink+Kafka环境配置

overfit同步小助手 2024-04-08 06:03:42 0 收藏

java Flink（四十二）Flink的序列化以及TypeInformation介绍（源码分析）

主要作用是为了在 Flink系统内有效地对数据结构类型进行管理，能够在分布式计算过程中对数据的类型进行管理和推断。同时基于对数据的类型信息管理，Flink内部对数据存储也进行了相应的性能优化。每一个具体的数据类型都对应一个TypeInformation的具体实现，每一个TypeInformation

overfit同步小助手 2024-04-07 19:03:45 0 收藏

Flink CDC实践

访问http://虚拟机ip:8081，查看flink webUI是否正常访问。下载flink安装包，网速较慢，可以尝试在国内镜像网址。将mysql和doris的驱动包移动到lib目录下。启动flink，查看启动是否成功。解压flink-cdc安装包。配置flink环境变量。下载flink安装包。解

overfit同步小助手 2024-04-07 11:03:41 0 收藏

[flink 实时流基础]源算子和转换算子

所以，source就是我们整个处理程序的输入端。filter转换操作，顾名思义是对数据流执行一个过滤，通过一个布尔条件表达式设置过滤条件，对于每一个流内元素进行判断，若为true则元素正常输出，若为false则元素被过滤掉。flatMap可以认为是“扁平化”（flatten）和“映射”（map）两步

overfit同步小助手 2024-04-06 22:03:35 0 收藏

FlinkSQL学习笔记（四）常见表查询详解与用户自定义函数

1、本篇只列举一些特殊的查询方式，掌握这些查询语句的基本使用概念即可，实际用到的时候进行查询即可。2、通过对这些例子的编写，感觉Flink相比hive中常见的查询方式，更多地从时间角度进行了更新迭代，需要注意Lookup Join和Temporal Joins区别3、自定义函数，大致了解就行，后续用

overfit同步小助手 2024-04-06 12:03:14 0 收藏

Flink on Kubernetes (flink-operator) 部署Flink

部署cluster完成，配置svcType 后即可访问，flink web ui，此时jobManager是启动着的 taskmanager随着flink jar进行启动和停止。3、使用initContainers和 containers使用相同的挂载路径，然后使用远程文件下载放到挂载路径中，con

overfit同步小助手 2024-04-06 10:03:52 0 收藏

通过 docker-compose 部署 Flink

overfit同步小助手 2024-04-06 06:03:48 0 收藏

Flink本地Debug调试的方法和注意点

flink项目如何本地debug调试，毕竟和后端项目不同。本文介绍flink项目本地debug方法和注意点。

overfit同步小助手 2024-04-05 15:03:29 0 收藏

【大数据】Flink学习笔记

Flink学习笔记

overfit同步小助手 2024-04-05 11:03:31 0 收藏

Flink实践代码-TableAPI 与 DataStream 互转

Flink tableAPI2DataStream

overfit同步小助手 2024-04-05 06:03:46 0 收藏

Flink CDC 3.0 表结构变更的处理流程

表结构变更主要涉及到三个类`SchemaOperator`、`DataSinkWriterOperator`（`Sink`端）和`SchemaRegistry`（协调器）；`SchemaOperator`接收结构变更消息时会通知`sink`端和协调器，并等待结构变更操作在协调器执行完毕后在处理后续数

overfit同步小助手 2024-04-04 22:03:20 0 收藏

[flink 实时流基础系列]揭开flink的什么面纱基础一

Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。

overfit同步小助手 2024-04-04 14:03:21 0 收藏

Flink流处理案例：实时数据去重

1.背景介绍在大数据处理领域，实时数据流处理是一项至关重要的技术，可以帮助我们实时分析和处理数据，从而更快地做出决策。Apache Flink是一款流处理框架，具有高性能和低延迟的特点，可以处理大规模的实时数据流。在本文中，我们将讨论Flink流处理的一个案例，即实时数据去重。1. 背景介绍实时数据

overfit同步小助手 2024-04-04 11:03:47 0 收藏

Flink中JobManager与TaskManage的运行架构以及原理详解

TaskManager是Flink中的工作进程，数据流的具体计算就是它来做的，所以也被称为“Worker”。当然由于分布式计算的考虑，通常会有多个TaskManager运行，每一个TaskManager都包含了一定数量的任务槽（task slots）。TaskManager启动之后，JobManag

overfit同步小助手 2024-04-04 02:03:27 0 收藏

Flink + Paimon数据 CDC 入湖最佳实践

Apache Paimon 最典型的场景是解决了 CDC （Change Data Capture）数据的入湖，看完这篇文章可以了解到：1、为什么 CDC 入Hive迁移到 Paimon？2、CDC 入 Paimon 怎么样做到成本最低？3、Paimon 对比 Hudi有什么样的优势？Paimon

overfit同步小助手 2024-04-04 00:03:52 0 收藏

2024年Kafka和Flink数据流的五大趋势

当多方需要与共享数据进行交互和利用共享数据时，数据合约至关重要，它可以确保数据的清晰性并符合约定的规则。有趣的是（但并不令人惊讶）:Gartner的预测与我关注的Apache Kafka展望2024年数据流的五大趋势相重叠和互补。生成AsyncAPI规范，与非Kafka应用程序共享数据（如支持Asy

overfit同步小助手 2024-04-03 14:03:33 0 收藏

flink on yarn-per job源码解析、flink on k8s介绍

YARN per job模式下用户程序在Client端被执行，Client端即执行flink shell命令的执行节点。Client端主要工作就是将用户写的代码转换为JobGraph，向YARN提交应用以执行JobGraph。PipelineExecutor（YarnJobClusterExecut

overfit同步小助手 2024-04-03 04:03:30 0 收藏

hive 、spark 、flink之想一想

1：hive是怎么产生的？Hive是由Facebook开发的，目的是让拥有SQL知识的分析师能够在Hadoop上进行数据查询。Hive提供了类SQL的查询语言HiveQL，通过将HiveQL查询转换为MapReduce任务来在Hadoop上处理大规模数据。2：hive的框架是怎么样的？3：hive

overfit同步小助手 2024-04-02 12:03:09 0 收藏