大数据 Flink - overfit.cn

【基础篇】三、Flink集群角色、系统架构以及作业提交流程

TaskManager是Flink中的工作进程，数据流的具体计算就是它来做的。需要注意在早期版本的Flink中，没有JobMaster的概念，而JobManager的概念范围较小，实际指的就是现在所说的JobMaster。这里的ResourceManager是Flink内置的资源管理组件，和其他资源

overfit同步小助手 2023-11-12 23:03:31 0 收藏

Flink SQL Hive Connector使用场景

本文基于FLink1.16讨论，Apache Flink Hive Connector提供了Flink与Hive的集成，主要用于在Flink中读取和写入Hive数据

overfit同步小助手 2023-11-12 22:03:42 0 收藏

Flink学习之旅：（三）Flink源算子（数据源）

大多数情况下，前面几个数据源已经满足需求了。但是遇到特殊情况我们需要自定义的数据源。实现方式如下：1.编辑自定义源Source/***//**** 主要实现2个方法 run() 和 cancel()*/// 声明一个布尔变量，作为控制数据生成的标识位@Override// 在指定的数据集中随机选取数

overfit同步小助手 2023-11-12 21:03:19 0 收藏

Flink实现kafka到kafka、kafka到doris的精准一次消费

【代码】Flink实现kafka到kafka、kafka到doris的精准一次消费。

overfit同步小助手 2023-11-12 12:03:40 0 收藏

Flink之常用处理函数

处理函数Processing Function是Apache Flink中用于对数据流上的元素进行处理的核心组件之一。处理函数负责定义数据流上的数据如何被处理，允许开发人员编写自定义逻辑以执行各种操作，如转换、聚合、筛选、连接等，并在处理后生成输出数据流。

overfit同步小助手 2023-11-12 11:03:39 0 收藏

Flink---14、Flink SQL（SQL-Client准备、流处理中的表、时间属性、DDL）

Flink SQL（SQL-Client准备、流处理中的表、时间属性、DDL）

overfit同步小助手 2023-11-10 21:03:43 0 收藏

Flink写入数据到ClickHouse

使用Flink将流式数据写入到ClickHouse

overfit同步小助手 2023-11-10 07:03:43 0 收藏

【Flink实战】Flink 商品销量统计-实战Bahir Connetor实战存储数据到Redis6.X

Redis环境说明 redis6使用docker部署redis6.x 看个人主页docker相关文章编码实战数据源static {list.add("spring boot2.x课程");list.add("微服务SpringCloud课程");list.add("RabbitMQ消息队列");l

overfit同步小助手 2023-11-10 05:03:24 0 收藏

【基础篇】四、本地部署Flink

独立部署就是独立运行，即Flink自己管理Flink资源，不依靠任何外部的资源管理平台，比如K8S或者Hadoop的Yarn，当然，独立部署的代价就是：如果资源不足，或者出现故障，没有自动扩展或重分配资源的保证，必须手动处理，生产环境或者作业量大的场景下不建议采用独立部署。应用模式与单作业模式，都是

overfit同步小助手 2023-11-09 18:03:35 0 收藏

Flink-SQL 写入PostgreSQL 问题汇总

。

overfit同步小助手 2023-11-09 08:03:54 0 收藏

17、Flink 之Table API: Table API 支持的操作（1）

1、Flink 部署、概念介绍、source、transformation、sink使用示例、四大基石介绍和示例等系列综合文章链接13、Flink 的table api与sql的基本概念、通用api介绍及入门示例14、Flink 的table api与sql之数据类型: 内置数据类型以及它们的属性1

overfit同步小助手 2023-11-08 11:03:26 0 收藏

Flink SQL 窗口聚合详解

overfit同步小助手 2023-11-08 09:03:45 0 收藏

Flink on yarn 加载失败plugins失效问题解决

flink 任务运行在yarn集群,plugins加载失效问题

overfit同步小助手 2023-11-07 15:03:40 0 收藏

Flink之FileSink将数据写入parquet文件

Flink写入数据到Parquet文件

overfit同步小助手 2023-11-07 14:03:37 0 收藏

16、Flink 的table api与sql之连接外部系统: 读写外部系统的连接器和格式以及JDBC示例（4）

当缓存命中最大缓存行 lookup.partial-cache.max-rows 或当行超过 lookup.partial-cache.expire-after-write 或 lookup.partial-cache.expire-after-access 指定的最大存活时间时，缓存中的行将被设置

overfit同步小助手 2023-11-07 09:03:32 0 收藏

Flink CDC介绍

CDC（Change Data Capture）是一种用于捕获和处理数据源中的变化的技术。它允许实时地监视数据库或数据流中发生的数据变动，并将这些变动抽取出来，以便进行进一步的处理和分析。传统上，数据源的变化通常通过周期性地轮询整个数据集进行检查来实现。但是，这种轮询的方式效率低下且不能实时反应变化

overfit同步小助手 2023-11-06 14:03:50 0 收藏

Flinkx/Datax/Flink-CDC 优劣势对比

FlinkX是一款基于Flink的分布式离线/实时数据同步插件，可实现多种异构数据源高效的数据同步，其由袋鼠云于2016年初步研发完成，目前有稳定的研发团队持续维护，已在Github上开源（开源地址详见文章末尾），并维护该开源社区。目前已完成批流统一，离线计算与流计算的数据同步任务都可基于Flink

overfit同步小助手 2023-11-06 08:03:44 0 收藏

大数据Flink（七十一）：SQL的时间属性

以事件时间举个例子，如果只是数据携带了时间，Flink 也消费了这个数据，但是在 Flink 中没有使用数据的这个时间作为计算的触发条件，也不能把这个 Flink 任务叫做事件时间的任务。：举个例子，比如用户可以自定义每隔 10s 的本地时间，或者消费到的数据的时间戳每增大 10s，就把计算结果输出

overfit同步小助手 2023-11-06 06:03:47 0 收藏

官宣｜Apache Flink 1.18 发布公告

Apache Flink PMC 已正式发布 Apache Flink 1.18.0 版本。与往常一样，这是一个充实的版本，包含了广泛的改进和新功能。总共有 174 人为此版本做出了贡献，完成了 18 个 FLIPs 和 700 多个问题。感谢各位贡献者的支持！Tips：点击「阅读原文」免费领取 5

overfit同步小助手 2023-11-05 12:03:47 0 收藏

Flink + Iceberg打造流批一体的数据湖架构

对于数据湖架构来说，数据文件在HDFS的分布组织是由写入任务决定的，而对于分布式数仓来说，数据一般是通过JDBC写入，数据的存储组织方式是由数仓本身决定的，所以数仓可以按照对于查询更加友好的方式组织数据的存储，比如对数据文件定期compact到合适的大小或者对数据进行合理排序和分组，对于大规模的数据

overfit同步小助手 2023-11-05 04:03:51 0 收藏