Flink:流上的“不确定性”(Non-Determinism)

先明确一下什么叫“确定性”:对于一个“操作”来说,如果每次给它的“输入”不变,操作输出的“结果”也不变,那么这个操作就是“确定性“的。通常,我们认为批处理的操作都是确定的,比如针对一张 clicks 表,假如表中的数据没有变化,无论我们执行多少次 SELECT * FROM clicks 操作,它的

【大数据】深入浅出 Apache Flink:架构、案例和优势

总的来说,Apache Flink 有几个显著的优点,使其成为当今最流行的分析引擎之一。它的速度快如闪电,是一个分布式系统,能以容错的方式处理批处理和流式数据,还能处理大型数据集,这些优点使它成为各种应用的理想选择。

【大数据】流处理基础概念(一):Dataflow 编程基础、并行流处理

现实世界的系统、网络及通信信道往往充斥着缺陷,因此流数据通常都会有所延迟或者以乱序到达。了解如何在这种情况下提供精准确定的结果就变得至关重要。此外,处理实时事件的流处理应用还应以相同的方式处理历史事件,这样才能支持离线分析,甚至时间旅行式分析。当然,如果你的系统无法在故障时保护状态,那一切都是空谈。

[4] Flink大数据流式处理利剑: Flink集群安装和运行

本节笔者总结了如何在一个机器上安装集群,以及在多个机器上安装集群;并提到了通过zookeeper可以让Flink集群的Master节点也保持高可用;最后演示了如何部署一个SocketWindowWordCount.jar的例子,并在Flink的Web UI上面观察其job的执行情况和输出!

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈