0


Flink 应用实践:无限序列生成器

作者:禅与计算机程序设计艺术

1.简介

在大数据计算领域,数据的处理方式经历了从离线到实时再到流处理(streaming)的演变。为了能够对流数据进行高效、低延迟地计算和分析,Apache Flink 提供了丰富的 API 和组件来支持各种数据处理工作负载,包括批处理(batch processing),实时计算(real-time computing),以及基于事件时间(event time)的流处理。然而,当面临流数据源头无限输入的情况时,如何生成一个无限的、无穷的数据集就成为一个关键性的问题。作为 Flink 用户,一般只会遇到以下两种情况: (1)假设有一个无限的或者实时的消息源(例如,来自物联网设备的传感数据),需要持续地将它们输入到 Flink 的集群中进行处理; (2)假设有一个源头不断产生新的数据元素,但对于每个数据元素都需要耗费很长的时间来执行某些计算或数据处理任务。这类数据源被称为“事件驱动型”(event-driven)。 这两个场景都属于无限流数据源,也就是说,虽然源头处于活动状态,但是它可以一直推送新的数据元素到 Flink 中,也不会停止发送数据。同时,由于没有结尾(end of stream),所以 Flink 需要提供一种机制来对源头的输出进行管理和控制。 今天,我将给大家介绍一种通过 Apache Flink 生成无限序列的解决方案——无限序列生成器(Infinite Sequencer)。本文首先会对 Flink 中的一些相关术语和概念做简单的介绍,然后介绍无限序列生成器的原理,


本文转载自: https://blog.csdn.net/universsky2015/article/details/132681627
版权归原作者 禅与计算机程序设计艺术 所有, 如有侵权,请联系我们删除。

“Flink 应用实践:无限序列生成器”的评论:

还没有评论