大数据 Flink - overfit.cn

grafana+prometheus+pushgateway+flink可视化实时监控

overfit同步小助手 2023-07-17 10:04:27 0 收藏

flink1.14 sql基础语法（二） flink sql表定义详解

overfit同步小助手 2023-07-17 07:04:16 0 收藏

Hudi（16）：Hudi集成Flink之读取方式

如果将全量数据(百亿数量级) 和增量先同步到 kafka，再通过 flink 流式消费的方式将库表数据直接导成 hoodie 表，因为直接消费全量部分数据：量大（吞吐高）、乱序严重（写入的 partition 随机），会导致写入性能退化，出现吞吐毛刺，这时候可以开启限速参数，保证流量平稳写入。通过参

overfit同步小助手 2023-07-16 13:03:51 0 收藏

Flink CDC 2.4 正式发布，新增 Vitess 数据源，更多连接器支持增量快照，升级 Debezium 版本

Flink CDC [1] 是基于数据库的日志 CDC 技术，实现了全增量一体化读取的数据集成框架。配合 Flink 优秀的管道能力和丰富的上下游生态，Flink CDC 可以高效实现海量数据的实时集成。

overfit同步小助手 2023-07-15 13:03:44 0 收藏

【Flink系列】查看Flink版本的命令，常用命令

/bin/start-cluster.sh ##启动。./bin/stop-cluster.sh ##停止。

overfit同步小助手 2023-07-14 19:04:33 0 收藏

flink 实时数仓构建与开发[记录一些坑]

flink 实时数仓构建与开发

overfit同步小助手 2023-07-14 15:04:48 0 收藏

初探Flink的Java实现流处理和批处理

Flink的批处理和流处理的Java实现

overfit同步小助手 2023-07-14 07:04:28 0 收藏

Flink本地运行WebUI日志问题

Flink程序运行后，在WebUI页面无法查看jobManager日志或者taskManager日志，归根结底是日志配置的问题，引入或修改相关日志文件配置项即可解决。

overfit同步小助手 2023-07-14 01:04:32 0 收藏

【flink】SinkUpsertMaterializer

在flink cdc同步数据时，基于sql的实现方式中发现了作业DAG有个算子，而且检查checkpoint历史时发现该算子state越来越大，有必要搞清楚为什么会多了这个算子，作用又是什么。通过算子名称定位到了源码为类,这个算子将输入的记录以作区分保存到state中，并为下游算子提供一下upser

overfit同步小助手 2023-07-12 09:04:29 0 收藏

Flink读写Doris操作介绍

Flink Doris Connector 可以支持通过 Flink 操作（读取、插入、修改、删除） Doris 中存储的数据。可以将 Doris 表映射为 DataStream 或者 Table。

overfit同步小助手 2023-07-12 08:04:01 0 收藏

什么是Flink CDC，以及如何使用

数据库中的CDC（Change Data Capture，变更数据捕获）是一种用于实时跟踪数据库中数据变化的技术。CDC的主要目的是在数据库中捕获增量数据，以便在需要时可以轻松地将这些数据合并到其他系统或应用程序中。CDC在数据库管理、数据同步、数据集成和数据备份等方面具有广泛的应用。CDC通常通过

overfit同步小助手 2023-07-12 03:04:24 0 收藏

python 创建和使用线程池

众所周知，python3多线程有threading，很好的支持了多线程，那么问题来了，为什么还需要线程池呢，其实很好回答，如果你要爬取网站有八百页，每页设置一个线程，难道能开启八百个么，光切换的时间也很高了吧。这时候就需要用到线程池，可以设置一个20的线程池，同时只有20个县城在运行，剩下的排队。直

overfit同步小助手 2023-07-12 01:04:24 0 收藏

Flink中常用的去重方案

将数据保存到状态中，进行累计。

overfit同步小助手 2023-07-11 18:04:07 0 收藏

flink开发常见问题 —— flink-kafka 依赖版本冲突问题

flink kafka 连接配置项目总结

overfit同步小助手 2023-07-11 13:04:10 0 收藏

Flink Hudi DataStream API代码示例

总结Flink通过DataStream API读写Hudi Demo示例，主要是自己备忘用。最开始学习Flink时都是使用Flink SQL,所以对于Flink SQL读写Hudi比较熟悉。但是对于写代码实现并不熟悉，而有些需求是基于Flink代码实现的，所以需要学习总结一下。仅为了实现用代码读写H

overfit同步小助手 2023-07-11 10:04:26 0 收藏

Flink部署

可以看到，Flink 本地启动非常简单，直接执行 start-cluster.sh 就可以了。如果我们想要扩展成集群，其实启动命令是不变的，主要是需要指定节点之间的主从关系。Flink 是典型的 Master-Slave 架构的分布式数据处理框架，其中 Master 角色对应着 JobManager

overfit同步小助手 2023-07-10 01:04:30 0 收藏

Flink on yarn任务日志怎么看

在flink的webui中可以看，但是flink任务失败后，webui就不存在了，那怎么看？

overfit同步小助手 2023-07-07 09:04:22 0 收藏

实时数仓建设第2问：怎样使用flink sql快速无脑统计当天下单各流程（已发货，确认收货等等）状态的订单数量

因为每笔订单的状态会发生变化，比如上午为【已支付待卖家发货】，这个时候【已支付待卖家发货】指标数要+1，下午订单的状态变更为【卖家通知物流揽收】，这个时候【卖家通知物流揽收】指标数要+1，而【已支付待卖家发货】指标数要-1。能够得到我们期望的结果，必须使得进入该SQL的数据流由append流变成up

overfit同步小助手 2023-07-06 12:04:32 0 收藏

示例代码：使用golang进行flink开发

以上示例代码使用 Flink 的 REST API 连接到 Flink 作业集群，并定义了一个输入数据流和一个输出数据流。然后，使用 Map 操作对输入数据进行处理，并将处理后的数据写入输出数据流。最后，执行作业并等待作业结束。请注意，以上示例代码仅供参考，具体实现可能会因为您的实际需求而有所不同。

overfit同步小助手 2023-07-05 14:04:27 0 收藏