Flink入门（更新中）

一、Flink

1.1 基本概念

1.1.1 flink简介

1.图片介绍

性能：

低延迟
高吞吐
内存计算

运维：

弹性实施部署机制
高可用配置
保存点恢复机制

准确性保证：

exactly-once 状态一致性
事件时间处理
专业的迟到数据处理

2.对比mapreduce

相似性

数据处理框架：都是大数据处理框架，都提供了一套编程模型和API，使得开发人员能处理大规模数据集。

分布式处理：都支持分布式处理，即数据可以在多个节点上并行处理。在MapReduce中，作业被拆分成多个map任务和reduce任务，这些任务在集群的多个节点上并行执行。在Flink中，数据流也被分割成多个部分，并在不同的任务（Task）中并行处理。

数据分区和聚合：在MapReduce中，map阶段的数据通常会被分区（sharding），并在reduce阶段进行聚合（如求和、计数等）。在Flink中，也有类似的机制，比如使用keyBy算子对数据进行分区，然后使用聚合函数（如sum、max等）对分区内的数据进行处理。

容错机制：都提供了容错机制，以确保在节点故障或数据丢失时能够恢复作业的执行。MapReduce通过检查点（checkpointing）和重试机制来实现容错，而Flink则提供了包括基于状态的容错和精确一次（exactly-once）语义的保证。

区别:

处理模式：MapReduce是批处理框架，处理的是静态数据集（即数据在作业开始之前就已经存在）。而Flink是流处理框架，它处理的是实时数据流（即数据是持续不断地产生的）。

实时性：Flink支持低延迟的实时数据处理，能够处理毫秒级甚至微秒级的数据。而MapReduce则更适合于离线批处理场景，其处理延迟通常较高。

状态管理：Flink提供了更强大的状态管理能力，它能够在任务之间或故障恢复后保持状态的一致性，且API更丰富。

1.2 flink编程模版

1.万卷不离其宗！！！运行模型通常包括三个部分：Source（数据源）、Transformation（转换操作）、Sink（输出）。

获取一个编程之行入口环境env

通过数据源组建，加载，创建datastream

对datastream调用各种处理算子表达计算逻辑

通过sink算子指定计算结果指定计算结果的输出方式

在env上触发程序提交执行

2.添加依赖

对于Maven项目，在

pom.xml

文件中添加

<dependency>

元素，代码举例：

<dependencies>  
    <!-- Flink核心库 -->  
    <dependency>  
        <groupId>org.apache.flink</groupId>  
        <artifactId>flink-core</artifactId>  
        <version>你的Flink版本号</version>  
        <!-- 通常这个依赖的作用域设置为provided，但根据你的项目需求可以调整 -->  
        <!-- <scope>provided</scope> -->  
    </dependency>  
  
    <!-- Flink流处理库（Java API） -->  
    <dependency>  
        <groupId>org.apache.flink</groupId>  
        <artifactId>flink-streaming-java_你的Scala版本</artifactId>  
        <version>你的Flink版本号</version>  
        <!-- 如果在IDE中运行，可能需要将作用域设置为compile或runtime -->  
        <!-- <scope>compile</scope> -->  
    </dependency>  
  
    <!-- 如果你还需要使用Table API或SQL，则可以添加以下依赖 -->  
    <!-- Flink Table API和SQL的Java桥接库 -->  
    <dependency>  
        <groupId>org.apache.flink</groupId>  
        <artifactId>flink-table-api-java-bridge_你的Scala版本</artifactId>  
        <version>你的Flink版本号</version>  
        <!-- 通常这个依赖的作用域也设置为provided -->  
        <!-- <scope>provided</scope> -->  
    </dependency>  
  
    <!-- 注意：上述示例中的“你的Flink版本号”和“你的Scala版本”需要替换为实际的版本号 -->  
    <!-- Flink的版本号可以从Apache Flink的官方网站或Maven中央仓库获取 -->  
    <!-- Scala的版本号取决于你使用的Flink版本和Scala兼容性 -->  
</dependencies>

1.2 常用概念

1.2.1 datastream

DataStream代表一个数据流，它可以是无界的，也可以是有界的；
DataStream类似于spark的rdd，它是不可变的（immutable）；
无法对一个datastream进行自由的添加或删除或修改元素；
只能通过算子对datastream中的数据进行转换，将一个datastream转成另一个datastream；
datastream可以通过source算子加载、映射外部数据而来；或者从已存在的datastream转换而来

1.2.2 算子、Task

1.算子（Operator）可以被通俗地理解为一种可以调用的函数或操作，它们对数据进行处理或转换。不过，与传统的函数相比，Flink的算子是在分布式环境中执行的，它们能够处理无限的数据流或有限的数据集。

举例：

Window算子：Window算子就像是一个定时闹钟和一堆小盘子。你设置了时间间隔（比如每分钟、每小时），当时间到了，闹钟就会响，然后你把这段时间内收集到的所有食材（数据）放到一个小盘子里进行统一处理。这样可以让你看到数据随时间变化的趋势。

Filter算子：Filter算子就像是一个筛子。你把食材（数据）倒进筛子里，只有满足特定条件（比如大小、颜色等）的食材才能通过筛子继续向下流动。这个过程中，不满足条件的食材就被淘汰了。

Sink算子（Sink Operator）：是数据流处理管道中的一个重要组成部分，它负责将处理后的数据输出到外部系统或存储中。Sink是数据流处理的终点，它接收来自上游算子的数据，并将其发送到目的地，如文件系统、数据库、消息队列等。

2.task,subtask

flink程序中，每一个算子都可以成为一个独立任务（task）；

flink程序中，视上下游算子间数据分发规则、并行度、共享槽位设置，可组成算子链成为一个task

每个任务在运行时都可拥有多个并行的运行实例（subTask）；

且每个算子任务的并行度都可以在代码中显式设置；

Task和算子的联系

共同作用于数据流处理：Task和算子都是处理数据流的关键组成部分。Task是执行单元，而算子定义了数据流上的具体操作。

优化与执行：为了提高处理效率和减少资源消耗，Flink会将多个算子链接（chain）成一个Task，在同一个线程中执行。

1.2.3 多流操作

多流操作指的是在数据流处理过程中，对两个或多个数据流进行各种转换和合并的操作。这些操作使得Flink能够处理复杂的数据流场景，如数据分流（将一条数据流拆分成多条）、数据合流（将多条数据流合并成一条）以及双流联结（基于特定条件将两条数据流联结起来）等。

1.2.4 时间语义

事件时间（Event Time）

事件时间是指数据本身所携带的时间戳，即数据实际发生或产生的时间。你可以把它想象成每个数据项都自带了一个“出生证”，上面写着它是什么时候被创造出来的。在Flink中，事件时间允许我们按照数据实际发生的时间顺序来处理数据，即使这些数据在系统中是乱序到达的。

处理时间（Processing Time）

处理时间是指数据在Flink系统中被处理时所在机器的系统时间。你可以把它想象成每个处理节点都有一个“本地时钟”，这个时钟告诉节点当前是什么时候，并且所有基于时间的操作都使用这个时钟的时间。

摄入时间（Ingestion Time）

摄入时间是指数据进入Flink系统的时间戳，即数据被Flink Source算子接收的时间。你可以把它想象成Flink系统有一个“大门”，所有数据都要通过这个大门进入，而大门上有一个“计时器”，记录着每个数据项进门的时间。

二、Flink编程实战(Java)

2.1 wordcount

标签： flink 大数据

本文转载自: https://blog.csdn.net/weixin_45440484/article/details/140637067
版权归原作者 Rebecca.Yan 所有，如有侵权，请联系我们删除。

Flink入门（更新中）

一、Flink

1.1 基本概念

1.1.1 flink简介

1.2 flink编程模版

1.2 常用概念

1.2.1 datastream

1.2.2 算子、Task

1.2.3 多流操作

1.2.4 时间语义

二、Flink编程实战(Java)

2.1 wordcount

发表评论

“Flink入门（更新中）”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航