大数据-129 - Flink CEP 详解 Complex Event Processing - 复杂事件处理

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

Hadoop（已更完）
HDFS（已更完）
MapReduce（已更完）
Hive（已更完）
Flume（已更完）
Sqoop（已更完）
Zookeeper（已更完）
HBase（已更完）
Redis （已更完）
Kafka（已更完）
Spark（已更完）
Flink（正在更新！）

章节内容

上节我们完成了如下的内容：

Flink 并行度概念
全局并行度（Global Parallelism）、作业并行度（Job-level Parallelism）、Slot 并行度（Slot-level Parallelism）
Flink 并行度的设置方式
Flink 并行度的优化策略

在这里插入图片描述

基本介绍

Flink CEP（Complex Event Processing）是Apache Flink的一个组件，用于处理复杂事件流。它允许用户基于流数据定义模式，并检测符合这些模式的事件序列。Flink CEP适用于实时流数据处理中的模式匹配任务，如欺诈检测、设备监控、网络入侵检测等。

主要概念

Flink CEP 基于以下核心概念来进行复杂事件处理：

事件流：事件是系统中需要处理的基础数据单元，通常是时间戳标记的。事件流是这些事件的连续序列。
模式： Flink CEP 允许定义匹配规则的模式，用来描述你希望在事件流中检测的事件序列。一个模式可以包括多个步骤，每个步骤可以对某些事件特征进行过滤。
状态机： Flink CEP 内部使用有限状态机来执行模式匹配。每个状态机都会跟踪事件流中事件是否满足定义的模式序列。事件可以触发状态转换，状态机会根据模式定义和事件发生顺序来移动。
时间处理： CEP支持事件时间和处理时间。事件时间是指事件发生的时间，而处理时间是Flink处理该事件的时间。可以通过Watermark机制来处理事件延迟或乱序问题。

Flink CEP 核心组件

Pattern API

Pattern类用于定义模式序列。你可以通过链式调用来指定各类条件，常见的模式组件包括：

begin(“stepName”)：定义模式的起始步骤。
where(predicate)：为当前步骤添加过滤条件。
next(“stepName”)：定义紧接着的步骤，匹配时要求必须是事件的严格连续。
followedBy(“stepName”)：定义松散连续匹配，事件之间可以存在无关事件。

PatternStream

一旦定义了模式，PatternStream是用于将模式应用到输入事件流的组件。可以通过CEP.pattern()方法创建一个PatternStream。匹配结果可以通过select()函数获取。

Conditions

在模式步骤中，你可以定义复杂的条件来过滤事件。除了基本的where()，Flink CEP还支持：

or()：添加多个条件。
until()：指定模式什么时候结束。
times()：要求模式必须匹配多次。

事件匹配的策略

Flink CEP支持多种事件匹配策略，常用的有：

Strict Contiguity（严格连续）：要求事件必须紧接着发生，没有其他不相关的事件出现。
Relaxed Contiguity（松散连续）：允许在相关事件之间存在无关事件。
Non-Deterministic Relaxed Contiguity（非确定性松散连续）：允许多个匹配路径。

Flink CEP 的应用场景

欺诈检测：在金融领域，Flink CEP常用于检测用户账户的可疑行为。例如，检测短时间内多个高额转账行为，或定位多个失败的登录尝试。
设备监控：通过CEP，企业可以实时监控工业设备的传感器数据，及时发现异常的操作模式，并生成告警。例如，设备温度连续超过阈值或设备运行状态频繁切换。
网络安全：在网络安全领域，Flink CEP可以用于实时监控网络流量，识别可能的网络入侵或攻击模式。例如，检测连续出现的多次失败的登录尝试后紧接着的成功登录行为。
物流跟踪：在物流行业中，可以使用CEP实时跟踪运输车辆的状态，监控是否出现延误或不正常的停留。Flink CEP可以根据车辆的GPS数据流，检测连续长时间静止的情况。

Flink CEP 的优势

实时性：Flink 本身是一款实时流处理框架，而CEP让其可以处理复杂的事件模式，使得用户可以实时检测和响应。
扩展性：Flink CEP基于分布式架构，能够处理高吞吐量的数据流并在大规模集群上运行。
灵活性：用户可以通过简单的API定义各种复杂的事件模式，满足各种不同的业务需求。

基础概念

基本定义

复合事件处理（Complex Event Processing， CEP）是一种基于动态环境中事件流的分析技术，事件在这里通常是有意义的状态变化，通过分析事件间的关系，利用过滤、关联、聚合等技术，根据事件间的时序关系和聚合关系制定检测规则，持续的从事件流中查询出符合要求的事件序列，最终分析得到更复杂的复合事件。

特征定义

CEP的特征如下：

目标：从有序的简单事件流中发现一些高阶特征
输入：一个或多个简单事件构成的事件流
处理：识别简单事件之间的联系，多个符合一定规则的简单事件构成复杂事件
输出：满足规则的复杂事件

在这里插入图片描述

功能概括

CEP用于分析低延迟、频繁产生的不同来源的事件流，CEP可以帮助在复杂的、不相关的时间流中找出有意义的模式和复杂的关系，以接近实时或准实时的获得通知或组织一些行为。
CEP支持在流上进行模式匹配，根据模式的不同，分为连续的条件或不连续的条件，模式条件允许有时间的限制，当条件范围内没有达到满足的条件时，会导致模式匹配超时。
看起来简单，但是它有很多不同的功能：

输入的流数据，尽快产生结果
在2个事件流上，基于时间进行聚合类的计算
提供实时/准实时的警告和通知
在多样的数据源中产生关联分析模式
高吞吐、低延迟的处理市场上有多种CEP的解决方案，如Spark、Samza、Beam等，但是都没有提供专门的库支持，然而Flink提供了专门的CEP库。

主要组件

Flink为CEP提供了专门的Flink CEP Library，它包含以下的组件：EventStream、Pattern定义，Pattern检测和生成Alert。
首先，开发人员要在DataStream流上定义出模式条件，之后FlinkCEP引擎进行模式检测，必要时生成警告。

在这里插入图片描述

PatternAPI

处理事件的规则，被叫做模式（Pattern）。
FlinkCEP提供了PatternAPI用于对输入流数据进行复杂事件规定定义，用来提取符合规则的时间序列。
模式大致分为三类：

个体模式（Individual Patterns）：组成复杂贵的每一个单独的模式定义，就是个体模式
组合模式（Combining Patterns 也叫序列模式）：很多个体模式组合起来，就形成了整个的模式序列
模式组（Group Of Pattern）：将一个模式序列作为条件嵌套在个体模式里，成为一组模式。

个体模式

个体模式包括单例模式和循环模式，单例模式只接受一个事件，而循环模式可以接受多个事件。

量词

可以在一个个体模式后追加量词，也就是指定循环次数。

// 匹配出现4次
start.time(4)
// 匹配出现0次或4次
start.time(4).optional
// 匹配出现2、3或4次
start.time(2,4)
// 匹配出现2、3或4次，并且尽可能多地重复匹配
start.time(2,4).greedy
// 匹配出现1次或多次
start.oneOrMore
// 匹配出现0、2或多次，并且尽可能多地重复匹配
start.timesOrMore(2).optional.greedy

条件

每个模式都需要指定触发条件，作为模式是否接受事件进入的判断依据。CEP中的个体模式主要通过 where、or、until来制定条件。按不同的调用方式，可以分成下面几类：

简单条件：通过where方法对事件中的字段进行判断筛选 start.where(event=>event.getName.startsWith(“foo”))
组合条件：将简单的条件进行合并，or方法表示或逻辑相连，where的直接组合就相当于and Pattern.where(event => …/some condition/).or(event => /or condition/)
终止条件：如果使用了oneOrMore或oneOrMore.optional，建议使用until作为终止条件，以便清理状态
迭代条件：能够对模式之前所有接受的事件进行处理，调用where，可以调用ctx.getEventForPattern(“name”)

模式序列

近邻模式

不同的近邻模式如下图
在这里插入图片描述

严格近邻：所有事件按照严格的顺序出现，中间没有任何不匹配的事件，由next制定，例如对于模式：a next b，事件序列：a c b1 b2 没有匹配
宽松近邻：允许中间出现不匹配的事件，由followedBy指定。例如对于模式 a followed by b，事件序列：a c b1 b2，匹配为：a, b1
非确定性宽松近邻：进一步放宽条件，之前已经匹配过的事件也可以再次使用，由 followByAny指定，例如对于模式 a followerByAny b，事件序列：a c b1 b2，匹配为: ab1,ab2。

除了以上的序列模式外，还可以定义不希望出现某种近邻关系：

notNext 不想让某个事件严格近邻前一个事件发生
notFollowBy 不想让某个事件在两个事件之间发生

额外注意

我们需要注意：

所有模式序列必须以 begin 开始
模式序列不能以 notFollowedBy结束
not类型的模式不能被optional所修饰
可以为模式指定时间约束，用来要求在多长时间内匹配有效。

模式检测

指定要查找的模式序列后，就可以将其应用于输入流以检测潜在匹配。调用CEP.pattern()，给定输入流和模式，就能得到一个PatternStream

val input:DataStream[Event]= …
val pattern:Pattern[Event,_]= …
val patternStream:PatternStream[Event]=CEP.pattern(input,pattern)

匹配事件提取

创建 PatternStream之后，就可以应用select或者flatSelect方法，从检测到的事件序列中提取事件。
select()方法需要输入一个select function作为参数，每个成功匹配的事件序列都会调用它。
select()以一个Map[String, Iterable[IN]]来接收匹配到的事件序列，其中key就是每个模式的名称，而value就是所有接收到的事件的Iterable类型。

def selectFn(pattern : Map[String,Iterable[IN]]):OUT={val startEvent = pattern.get(“start”).get.next
  val endEvent = pattern.get(“end”).get.next
  OUT(startEvent, endEvent)}

flatSelect通过实现PatternFlatSelectFunction实现与Select相似的功能，唯一的区别就是flatSelect方法可以返回多条记录，它通过一个Collector[OUT]类型的参数来将要输出的数据传递到下游。

标签：大数据 flink java

本文转载自: https://blog.csdn.net/w776341482/article/details/142124220
版权归原作者 武子康 所有，如有侵权，请联系我们删除。

大数据-129 - Flink CEP 详解 Complex Event Processing - 复杂事件处理

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

章节内容

基本介绍

主要概念

Flink CEP 核心组件

Pattern API

PatternStream

Conditions

事件匹配的策略

Flink CEP 的应用场景

Flink CEP 的优势

基础概念

基本定义

特征定义

功能概括

主要组件

PatternAPI

个体模式

量词

条件

模式序列

近邻模式

额外注意

我们需要注意：

模式检测

匹配事件提取

发表评论

“大数据-129 - Flink CEP 详解 Complex Event Processing - 复杂事件处理”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航