智慧之巅:大数据与算力中心的融合演进

在数字化的征途上,大数据与算力中心的融合演进如同一部史诗般的技术交响曲,奏响了智慧时代的最强音。我们见证了数据量的爆炸性增长,从TB到ZB的跃迁,不仅是对存储和处理能力的挑战,更是对创新思维的呼唤。数据处理技术的革新,从批处理到流处理的华丽转身,实时分析技术的崛起,如同夜空中最亮的星,指引着我们探索

基于Spark3.3.4版本,实现Standalone 模式高可用集群部署

在早期大数据处理中,我们会选择使用MapReduce分析处理海量数据,MapReduce存在计算慢、代码编写复杂、不支持流式计算及性能上的一些问题,Apache Spark计算框架的出现解决了MapReduce计算框架以上各种问题,Apache Spark是新一代的大数据计算框架,支持针对批量数据及

【大数据】Flink 详解(三):核心篇 Ⅱ

使用嵌入式的本地数据库 RocksDB 将流计算数据状态存储在本地磁盘中,不会受限于 TaskManager 的内存大小,在执行检查点的时候,再将整个 RocksDB 中保存的 State 数据全量或者增量持久化到配置的文件系统中,在 JobManager 内存中会存储少量的检查点元数据。除了对 S

【大数据】Flink 详解(五):核心篇 Ⅳ

反压(backpressure)是实时计算应用开发中,特别是流式计算中,十分常见的问题。反压意味着数据管道中某个节点成为瓶颈,下游处理速率跟不上上游发送数据的速率,而需要对上游进行限速。由于实时计算应用通常使用消息队列来进行生产端和消费端的解耦,消费端数据源是 pull-based 的,所以反压通常

【大数据】Flink 详解(四):核心篇 Ⅲ

Checkpoint 被叫做检查点,是 Flink 实现容错机制最核心的功能,是 Flink 可靠性的基石,它能够根据配置周期性地基于 Stream 中各个 Operator 的状态来生成 Snapshot 快照,从而将这些状态数据定期持久化存储下来,当 Flink 程序一旦意外崩溃时,重新运行程序

【大数据】Flink 详解(一):基础篇

Flink 是一个以流为核心的高可用、高性能的分布式计算引擎。具备流批一体,高吞吐、低延迟,容错能力,大规模复杂计算等特点,在数据流上提供数据分发、通信等功能。

【大数据】Flink 详解(二):核心篇 Ⅰ

Flink 支持两种划分窗口的方式(time 和 count)。第一种,按时间驱动进行划分、另一种按数据驱动进行划分。

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈