分布式计算 - overfit.cn

大数据新视界 --大数据大厂之 Dask：分布式大数据计算的黑马

本文深入介绍 Dask 在大数据处理中的应用。涵盖核心概念如数据处理工厂比喻，分布式计算架构，优势包括高效性与可扩展性、与其他工具集成性，丰富案例展示金融与科学计算等领域，性能优化策略及挑战应对，还探讨了与前沿技术结合及持续发展，文末有互动提问。

overfit同步小助手 2024-10-20 08:03:24 0 收藏

智慧之巅：大数据与算力中心的融合演进

在数字化的征途上，大数据与算力中心的融合演进如同一部史诗般的技术交响曲，奏响了智慧时代的最强音。我们见证了数据量的爆炸性增长，从TB到ZB的跃迁，不仅是对存储和处理能力的挑战，更是对创新思维的呼唤。数据处理技术的革新，从批处理到流处理的华丽转身，实时分析技术的崛起，如同夜空中最亮的星，指引着我们探索

overfit同步小助手 2024-08-07 21:04:01 0 收藏

基于Spark3.3.4版本,实现Standalone 模式高可用集群部署

在早期大数据处理中，我们会选择使用MapReduce分析处理海量数据，MapReduce存在计算慢、代码编写复杂、不支持流式计算及性能上的一些问题，Apache Spark计算框架的出现解决了MapReduce计算框架以上各种问题，Apache Spark是新一代的大数据计算框架，支持针对批量数据及

overfit同步小助手 2024-07-05 01:03:15 0 收藏

【大数据】Flink 详解（三）：核心篇 Ⅱ

使用嵌入式的本地数据库 RocksDB 将流计算数据状态存储在本地磁盘中，不会受限于 TaskManager 的内存大小，在执行检查点的时候，再将整个 RocksDB 中保存的 State 数据全量或者增量持久化到配置的文件系统中，在 JobManager 内存中会存储少量的检查点元数据。除了对 S

overfit同步小助手 2023-09-04 03:04:24 0 收藏

【大数据】Flink 详解（五）：核心篇 Ⅳ

反压（backpressure）是实时计算应用开发中，特别是流式计算中，十分常见的问题。反压意味着数据管道中某个节点成为瓶颈，下游处理速率跟不上上游发送数据的速率，而需要对上游进行限速。由于实时计算应用通常使用消息队列来进行生产端和消费端的解耦，消费端数据源是 pull-based 的，所以反压通常

overfit同步小助手 2023-08-30 14:05:54 0 收藏

【大数据】Flink 详解（四）：核心篇 Ⅲ

Checkpoint 被叫做检查点，是 Flink 实现容错机制最核心的功能，是 Flink 可靠性的基石，它能够根据配置周期性地基于 Stream 中各个 Operator 的状态来生成 Snapshot 快照，从而将这些状态数据定期持久化存储下来，当 Flink 程序一旦意外崩溃时，重新运行程序

overfit同步小助手 2023-08-24 10:04:24 0 收藏

【大数据】Flink 详解（一）：基础篇

Flink 是一个以流为核心的高可用、高性能的分布式计算引擎。具备流批一体，高吞吐、低延迟，容错能力，大规模复杂计算等特点，在数据流上提供数据分发、通信等功能。

overfit同步小助手 2023-08-23 08:04:20 0 收藏

【大数据】Flink 详解（二）：核心篇 Ⅰ

Flink 支持两种划分窗口的方式（time 和 count）。第一种，按时间驱动进行划分、另一种按数据驱动进行划分。

overfit同步小助手 2023-08-18 00:04:58 0 收藏