大数据 Flink - overfit.cn

flink 实时数仓构建与开发[记录一些坑]

flink 实时数仓构建与开发

overfit同步小助手 2023-07-14 15:04:48 0 收藏

初探Flink的Java实现流处理和批处理

Flink的批处理和流处理的Java实现

overfit同步小助手 2023-07-14 07:04:28 0 收藏

Flink本地运行WebUI日志问题

Flink程序运行后，在WebUI页面无法查看jobManager日志或者taskManager日志，归根结底是日志配置的问题，引入或修改相关日志文件配置项即可解决。

overfit同步小助手 2023-07-14 01:04:32 0 收藏

【flink】SinkUpsertMaterializer

在flink cdc同步数据时，基于sql的实现方式中发现了作业DAG有个算子，而且检查checkpoint历史时发现该算子state越来越大，有必要搞清楚为什么会多了这个算子，作用又是什么。通过算子名称定位到了源码为类,这个算子将输入的记录以作区分保存到state中，并为下游算子提供一下upser

overfit同步小助手 2023-07-12 09:04:29 0 收藏

Flink读写Doris操作介绍

Flink Doris Connector 可以支持通过 Flink 操作（读取、插入、修改、删除） Doris 中存储的数据。可以将 Doris 表映射为 DataStream 或者 Table。

overfit同步小助手 2023-07-12 08:04:01 0 收藏

什么是Flink CDC，以及如何使用

数据库中的CDC（Change Data Capture，变更数据捕获）是一种用于实时跟踪数据库中数据变化的技术。CDC的主要目的是在数据库中捕获增量数据，以便在需要时可以轻松地将这些数据合并到其他系统或应用程序中。CDC在数据库管理、数据同步、数据集成和数据备份等方面具有广泛的应用。CDC通常通过

overfit同步小助手 2023-07-12 03:04:24 0 收藏

python 创建和使用线程池

众所周知，python3多线程有threading，很好的支持了多线程，那么问题来了，为什么还需要线程池呢，其实很好回答，如果你要爬取网站有八百页，每页设置一个线程，难道能开启八百个么，光切换的时间也很高了吧。这时候就需要用到线程池，可以设置一个20的线程池，同时只有20个县城在运行，剩下的排队。直

overfit同步小助手 2023-07-12 01:04:24 0 收藏

Flink中常用的去重方案

将数据保存到状态中，进行累计。

overfit同步小助手 2023-07-11 18:04:07 0 收藏

flink开发常见问题 —— flink-kafka 依赖版本冲突问题

flink kafka 连接配置项目总结

overfit同步小助手 2023-07-11 13:04:10 0 收藏

Flink Hudi DataStream API代码示例

总结Flink通过DataStream API读写Hudi Demo示例，主要是自己备忘用。最开始学习Flink时都是使用Flink SQL,所以对于Flink SQL读写Hudi比较熟悉。但是对于写代码实现并不熟悉，而有些需求是基于Flink代码实现的，所以需要学习总结一下。仅为了实现用代码读写H

overfit同步小助手 2023-07-11 10:04:26 0 收藏

Flink部署

可以看到，Flink 本地启动非常简单，直接执行 start-cluster.sh 就可以了。如果我们想要扩展成集群，其实启动命令是不变的，主要是需要指定节点之间的主从关系。Flink 是典型的 Master-Slave 架构的分布式数据处理框架，其中 Master 角色对应着 JobManager

overfit同步小助手 2023-07-10 01:04:30 0 收藏

Flink on yarn任务日志怎么看

在flink的webui中可以看，但是flink任务失败后，webui就不存在了，那怎么看？

overfit同步小助手 2023-07-07 09:04:22 0 收藏

实时数仓建设第2问：怎样使用flink sql快速无脑统计当天下单各流程（已发货，确认收货等等）状态的订单数量

因为每笔订单的状态会发生变化，比如上午为【已支付待卖家发货】，这个时候【已支付待卖家发货】指标数要+1，下午订单的状态变更为【卖家通知物流揽收】，这个时候【卖家通知物流揽收】指标数要+1，而【已支付待卖家发货】指标数要-1。能够得到我们期望的结果，必须使得进入该SQL的数据流由append流变成up

overfit同步小助手 2023-07-06 12:04:32 0 收藏

示例代码：使用golang进行flink开发

以上示例代码使用 Flink 的 REST API 连接到 Flink 作业集群，并定义了一个输入数据流和一个输出数据流。然后，使用 Map 操作对输入数据进行处理，并将处理后的数据写入输出数据流。最后，执行作业并等待作业结束。请注意，以上示例代码仅供参考，具体实现可能会因为您的实际需求而有所不同。

overfit同步小助手 2023-07-05 14:04:27 0 收藏

Flink预加载分区维表，实时更新维表配置信息

总体来讲，关联维表有三个基础的方式：实时数据库查找关联（Per-Record Reference Data Lookup）、预加载维表关联（Pre-Loading of Reference Data）和维表变更日志关联（Reference Data Change Stream），而根据实现上的优化可

overfit同步小助手 2023-07-05 06:03:55 0 收藏

Flink SQL之Interval Joins

区间是双流join的优化，基于处理时间或事件时间，在一定时间区间内数据，相同的key进行join（支持 Batch\Streaming）。Interval Join 可以让一条流去 Join 另一条流中前后一段时间内的数据。对于stream查询，时间区间oin只支持有时间属性的 append-onl

overfit同步小助手 2023-07-04 19:04:36 0 收藏

Flink 1.17.0集群搭建

修改hadoop02和hadoop03的conf/flink-conf.yaml中的taskmanager.host，改为当前各自的主机名。修改conf/flink-conf.yaml（从flink1.16版本开始，需要修改以下配置）然后将hadoop01节点上的flink包分发至hadoop02和

overfit同步小助手 2023-07-04 00:04:19 0 收藏

Flink1.14提交任务报错classloader.check-leaked-classloader问题解决

Trying to access closed classloader. Please check if you store classloaders directly or indirectly in static fields. If the stacktrace suggests that t

overfit同步小助手 2023-07-03 23:04:20 0 收藏

Dinky: 实时即未来，让 Flink SQL 纵享丝滑--如何本地编译、运行

实时即未来，Dinky 为 Apache Flink 而生，让 Flink SQL 纵享丝滑。Dinky 是一个开箱即用、易扩展，以 Apache Flink 为基础，连接 OLAP 和数据湖等众多框架的一站式实时计算平台，致力于流批一体和湖仓一体的探索与实践。本文讲解window 10环境下，如何

overfit同步小助手 2023-07-03 13:04:29 0 收藏

flink内存参数配置学习

直接上官网配置 JobManager 内存 | Apache Flink配置 JobManager 内存 # JobManager 是 Flink 集群的控制单元。它由三种不同的组件组成：ResourceManager、Dispatcher 和每个正在运行作业的 JobMaster。本篇文档将介绍

overfit同步小助手 2023-07-03 12:04:57 0 收藏