大数据 Flink - overfit.cn

flink 例子（scala）

/env.setStateBackend(new RocksDBStateBackend(s"hdfs://${namenodeID}", true))//hdfs 作为状态后端。env.setStreamTimeCharacteristic(TimeCharacteristic.Processin

overfit同步小助手 2024-10-03 00:03:24 0 收藏

大数据Flink（一百二十二）：阿里云Flink MySQL连接器介绍

MySQL CDC源表在正则匹配表名时，会将您填写的 database-name，table-name 通过字符串 \\.（VVR 8.0.1前使用字符.）连接成为一个全路径的正则表达式，然后使用该正则表达式和MySQL数据库中表的全限定名进行正则匹配。MySQL的CDC源表，即MySQL的流式源表

overfit同步小助手 2024-10-02 13:03:27 0 收藏

flink写入hudi MOR表

kafka读取数据写入到hudi表，表类型是MOR

overfit同步小助手 2024-10-01 16:03:31 0 收藏

Flink 高可用原理

Flink JobManager 高可用加强了 Flink 集群防止 JobManager 故障的能力。此特性确保了 Flink 集群将始终持续执行你提交的作业。

overfit同步小助手 2024-10-01 04:03:58 0 收藏

饿了么基于Flink+Paimon+StarRocks的实时湖仓探索

作者：王沛斌@饿了么本文整理自饿了么大数据架构师、Apache Flink Contributor 王沛斌老师在8月3日 Streaming Lakehouse Meetup Online（Paimon x StarRocks，共话实时湖仓架构）上的分享。主要分为以下三个内容：1. 饿了么实时数仓演

overfit同步小助手 2024-10-01 00:03:53 0 收藏

大数据Flink（一百一十二）：Flink SQL作业快速入门

在阿里云官网首页，点击右上角控制台，进入工作台。直接点击我的资源下的Flink，或者搜索Flink，进入Flink控制台。点击实例id，进入Flink项目空间。在左侧导航栏，单击SQL开发。在作业草稿下，新建文件夹：阿里云Flink。在此文件夹下，创建文件夹：快速入门。在快速入门文件夹下，单击新建作

overfit同步小助手 2024-09-30 20:06:48 0 收藏

大数据：快速入门Scala+Flink

Scala 是一种多范式编程语言，它结合了面向对象编程和函数式编程的特性。Scala 这个名字是“可扩展语言”（Scalable Language）的缩写，意味着它被设计为能够适应不同规模的项目，从小型脚本到大型分布式系统。兼容 Java：Scala 代码可以编译成 Java 字节码，并且可以在任何

overfit同步小助手 2024-09-30 19:03:14 0 收藏

Flink入门系列(1)：Apache Flink简介

Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。

overfit同步小助手 2024-09-29 21:06:15 0 收藏

大数据Flink（一百二十四）：案例实践——淘宝母婴数据加速查询

本场景中订单和婴儿信息存储在MySQL中，对于订单表，为了方便进行分析，我们让它关联上其对应的婴儿信息，构成一张宽表。在这个例子中，我们将创建三张数据表，其中一张orders_dataset_tmp是导入数据的临时表，其他两张作为源表，体验淘宝母婴订单实时查询。导入完成之后，在SQLConsole页

overfit同步小助手 2024-09-29 16:03:33 0 收藏

flink的窗口

窗口是flink中重要的概念，为了方便高效的处理无界流，将数据切成有限的数据块进行处理；

overfit同步小助手 2024-09-29 14:03:29 0 收藏

30分钟掌握沧湖一体化：flink+hudi（干货，建议收藏）_flink hudi sink

之所以数据先入 Kafka 而不是直接入 Hudi，是为了实现多个实时任务复用 MySQL 过来的数据，避免多个任务通过 Flink CDC 接 MySQL 表以及 Binlog，对 MySQL 库的性能造成影响。再者，如果把大量的历史数据再一次推到 Kafka，走实时计算的链路来修正历史数据，可能

overfit同步小助手 2024-09-29 05:03:53 0 收藏

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务

点一下关注吧！！！非常感谢！！持续更新！！！目前已经更新到了：Hadoop(已更完)HDFS(已更完)MapReduce(已更完)Hive(已更完)Flume(已更完)Sqoop(已更完)Zookeeper(已更完)HBase(已更完)Redis (已更完)Kafka(已更完)Spark(已更完)F

overfit同步小助手 2024-09-29 05:03:49 0 收藏

Paimon 集成Flink CDC (二） Kafka

Flink提供了几种KafkaCDC格式:canal-json、debezium-json、ogg-json、maxwell-json。如果Kafka主题中的消息是使用更改数据捕获(CDC）工具从另一个数据库捕获的更改事件，则可以使用Paimon 的KafkaCDC。将解析后的INSERT、UPDA

overfit同步小助手 2024-09-29 05:03:32 0 收藏

Flink SQL 中枚举类型处理的挑战与解决方案

在 Flink SQL 中处理枚举类型的数据可能会遇到一些限制，特别是在无法调用 Java 方法的情况下。数据预处理：在 Kafka 数据源处将枚举类型转换为字符串。CASE语句：在 Flink SQL 中使用CASE语句进行枚举值的映射，适用于较简单的场景。字符串替换：对于简单的枚举字符串，可以使

overfit同步小助手 2024-09-29 01:04:14 0 收藏

解决高版本flink cdc connector缺少依赖的问题

解决高版本flink cdc依赖缺失的问题

overfit同步小助手 2024-09-29 00:03:46 0 收藏

Flink：ES

overfit同步小助手 2024-09-28 18:07:24 0 收藏

Flink CDC 在货拉拉的落地与实践

今天的文章撰写自陈政羽老师在 Apache Asia Community Over Code 2024 上的分享《货拉拉在 Flink CDC 生产实践落地》，系统地介绍货拉拉的业务背景，技术选型，整体能力构建与收益，最后分享了开源参与以及开展的未来工作和期望。

overfit同步小助手 2024-09-28 16:03:53 0 收藏

利用 Flink CDC 实现实时数据同步与分析

Flink CDC（Change Data Capture）是一种用于实时捕获和处理数据库中数据变更的技术。它通过监控数据库的变更事件，将这些事件转化为流式数据，使得数据处理系统（如 Apache Flink）能够以流的方式实时处理和分析数据。Flink CDC 支持多种数据库（如 MySQL、Po

overfit同步小助手 2024-09-28 02:03:52 0 收藏

Flink1.19 JobSubmitHandler源码解析

JobGraph在客户端生成后，需要发送到服务端，首先会被JobSubmitHandler（WebMonitor内处理http请求的处理类）接收处理，然后会发送到Dispatcher进一步处理

overfit同步小助手 2024-09-27 18:03:45 0 收藏

细说Flink状态管理

KeyedState 顾名思义就是某个key对应的某些状态的值，因为我们在进行keyBy的时候，我们是需要知道这个对应的key的value值有哪些，也需要知道这个value值有多少等，所以这个KeyedState 一般分为ValueState，ListState, MapState等，分别存储这些k

overfit同步小助手 2024-09-27 04:03:54 0 收藏