大数据 Flink - overfit.cn

Hadoop集群安装组件版本对应关系

overfit同步小助手 2023-09-23 06:03:48 0 收藏

1.Flink源码编译

链接：https://pan.baidu.com/s/1ZxYydR8rBfpLCcIdaOzxVg。1.1.4 scala版本（idea需要下载支持的scala插件）node 编译 flink-runtime-web需要。flile->open->选择源码所在目录。以上环境需要在操作系统下配置环境

overfit同步小助手 2023-09-22 15:03:35 0 收藏

flink面试常见题带答案(持续更新)

Apache Flink 是一个开源的基于流的有状态计算架。它是分布式地执行的，具备低延迟、高吞吐的优秀性能，并且非常擅长处理有状态的复杂计算逻辑场景。全局快照首先是一个分布式应用，它有多个进程分布在多个服务器上:其次，它在应用内部有自己的处理逻辑和状态:第三，应用间是可以互相通信的:第四，在这种分

overfit同步小助手 2023-09-22 12:04:00 0 收藏

Flink之Sink

Flink 的 DataStream API 专门提供了向外部写入数据的方法：addSink。与 addSource 类似，addSink 方法对应着一个“Sink”算子，主要就是用来实现与外部系统连接、并将数据提交写入的；Flink 程序中所有对外的输出操作，一般都是利用 Sink 算子完成的。

overfit同步小助手 2023-09-21 11:04:01 0 收藏

【flink】使用flink-web-ui提交作业报错

换了地址以后提交作业成功了。OKOKOKOK，哈哈哈哈哈哈哈哈哈哈哈哈！看一下我的StateBackend 文件地址是哪里？查看这里：/job-manager/config。在弹框中是无法看到具体错误信息的。使用WebUI提交作业出现错误。上传的jar 包位置在哪里啊？在这个目录下面我没有办法创建。

overfit同步小助手 2023-09-21 04:03:57 0 收藏

Flink 系例之 SQL 案例 - 订单统计

示例，对电商实时订单进行聚合计算，分以下两个维度进行：1. 统计每 1 分钟的订单数量、用户数量、销售额、商品数；2. 统计每个分类的订单总数量、用户总数量（未去重）、销售额、商品数

overfit同步小助手 2023-09-21 04:03:41 0 收藏

流数据湖平台Apache Paimon（四）集成 Hive 引擎

支持 Hive Read 的 MR 和 Tez 执行引擎，以及 Hive Write 的 MR 执行引擎（beeline也不支持hive write）。前面与Flink集成时，通过使用 paimon Hive Catalog，可以从 Flink 创建、删除、查询和插入到 paimon 表中。要访问现

overfit同步小助手 2023-09-21 03:03:56 0 收藏

说说Flink运行模式

与Per-Job-Cluster的区别：就是Application Mode下, 用户的main函数式在集群中执行的，并且当一个application中有多个job的话，per-job模式则是一个job对应一个yarn中的application，而Application Mode则这个applica

overfit同步小助手 2023-09-20 23:03:46 0 收藏

flink写入到kafka 大坑解析。

加了重试机制 env.setRestartStrategy(RestartStrategies.failureRateRestart(3,Time.of(5000, TimeUnit.SECONDS),Time.of(5000,TimeUnit.SECONDS)));失败的任务只会重试几次。这里就报

overfit同步小助手 2023-09-20 17:03:43 0 收藏

Flink集群搭建

overfit同步小助手 2023-09-20 13:04:12 0 收藏

大数据Flink（七十四）：SQL的滑动窗口（HOP）

与滚动窗口功能一样，也有窗口大小的概念。不一样的地方在于，滑动窗口有另一个参数控制窗口计算的频率（滑动窗口滑动的步长）。因此，如果滑动的步长小于窗口大小，则滑动窗口之间每个窗口是可以重叠。这样，每 5 分钟会划分一次窗口，这个窗口包含的数据是过去 10 分钟内的数据，如下图所示。：比如计算同时在线的

overfit同步小助手 2023-09-19 08:03:38 0 收藏

【大数据】Flink 详解（六）：源码篇 Ⅰ

PipeExecutor在 Flink 中被叫做流水线执行器，它是一个接口，是Flink Client生成 JobGraph 之后，将作业提交给集群的重要环节。前面说过，作业提交到集群有好几种方式，最常用的是yarn方式，yarn方式包含3种提交模式，主要使用session模式，per-job模式。

overfit同步小助手 2023-09-19 06:04:06 0 收藏

Elasticsearch 集成--Flink 框架集成

是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。掀开了内存计算的先河，以内存作为赌注，赢得了内存计算的飞速发展。但是在其火热的同时，开发人员发现，在Spark中，计算框架普遍存在的缺点和不足依然没有完全解决，而这些问题随着5G时代的来临以及决策者对实时数据分析结果的迫切需要而凸显的更加明显：

overfit同步小助手 2023-09-19 01:04:03 0 收藏

大数据-玩转数据-Flink 网站UV统计

在实际应用中，我们往往会关注，到底有多少不同的用户访问了网站，所以另外一个统计流量的重要指标是网站的独立访客数（Unique Visitor，UV）。对于UserBehavior数据源来说，我们直接可以根据userId来区分不同的用户。将userid放到SET集合里面，统计集合长度，便可以统计到网站

overfit同步小助手 2023-09-19 01:03:32 0 收藏

flink数据流单(kafka)流根据id去重

配置: table.exec.state.ttl。

overfit同步小助手 2023-09-18 19:03:52 0 收藏

大数据-玩转数据-Flink RedisSink

可以根据要写入的redis的不同数据类型进行调整。具体版本根据实际情况确定。

overfit同步小助手 2023-09-18 01:03:45 0 收藏

Flink读取mysql数据库(java)

Flink从mysql读取数据

overfit同步小助手 2023-09-17 11:03:38 0 收藏

Flink-Window详细讲解-countWindow

当每个窗口中的元素数量达到 5 时，将触发计算。这意味着窗口 1 中的计算会在处理 5 个元素后触发，窗口 2 中的计算会在处理 10 个元素后触发。是持续监视整个数据流的元素数量，只有在数据流中的元素数量从不小于 5 变为不小于 10 时，才会再次触发计算。会持续监视整个数据流的元素数量，只有当元

overfit同步小助手 2023-09-17 05:04:06 0 收藏

flink优化

大状态调优：在我们的项目中，在做新老访客修复时，我们将每个mid的访问时间都存到了状态里面，在做回流用户数时，我们将每个用户的登录时间都存到了状态里面，导致了大状态问题，由于hashmap状态后端会将数据存储到内存，所以就会出现内存不够的情况。我们的解决办法就是将状态后端改成了rocksdb，并且开

overfit同步小助手 2023-09-16 23:03:33 0 收藏

Flink CDC 基于mysql binlog 实时同步mysql表

环境说明：flink1.15.2mysql 版本5.7 注意：需要开启binlog，因为增量同步是基于binlog捕获数据windows11 IDEA 本地运行先上官网使用说明和案例：MySQL CDC Connector — Flink CDC documentation1. mysql开启bi

overfit同步小助手 2023-09-16 18:04:09 0 收藏