主流的大数据框架Hadoop/spark

主流的大数据框架

大数据框架能处理传统计算技术所无法处理的大型数据集。它不是单一的技术或工具，而是涉及的业务和技术的许多领域。

目前主流的三大分布式计算系统分别为 Hadoop、Spark 和 Strom：

** Hadoop 是当前大数据管理标准之一，运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集。**

** Spark 采用了内存计算。从多迭代批处理出发，允许将数据载入内存作反复查询，此外还融合数据仓库，流处理和图形计算等多种计算范式。Spark 构建在 HDFS 上，能与 Hadoop 很好地结合。**

1、Hadoop

    Hadoop 是一个开源的分布式计算框架，主要用于处理和存储海量数据。它由 Apache 基金会开发，能够在廉价的硬件上可靠地运行。Hadoop 的核心组件包括：

    HDFS (Hadoop Distributed File System)：用于分布式存储文件，将大文件分割为多个小块并分布在集群中的多个节点上。

    MapReduce：用于分布式计算的编程模型，将任务分割为“映射（Map）”和“归约（Reduce）”两个阶段，通过并行计算快速处理大数据。

    YARN (Yet Another Resource Negotiator)：用于管理资源和调度任务，允许多个作业同时运行。

    Hadoop Common：包含支撑 Hadoop 各个模块运行的实用工具和类库。

为什么使用 Hadoop？

    处理大数据：Hadoop 能够高效地存储和处理海量数据。

    扩展性：可以水平扩展，增加节点以提升存储和计算能力。

    容错性：即使某些节点失效，数据仍能通过复制机制在其他节点上恢复。

    成本效益：Hadoop 可以在廉价的硬件上运行，从而降低成本。

2、spark

Apache Spark 是一个开源的分布式计算框架，主要用于大规模数据处理和分析任务。它具有强大的并行计算能力，能有效地处理海量数据，并支持多种编程语言（如 Java、Scala、Python、R）。如果你需要处理大数据或在集群环境中高效执行数据操作，Spark 是非常合适的工具。

Spark 的主要特点：

1、高速处理： Spark 能够将数据加载到内存中进行计算，相比于传统的 Hadoop MapReduce，它的迭代计算速度要快很多，特别是在处理需要多次操作的数据集时（例如机器学习任务）。

2、简化编程： Spark 提供了高级 API，尤其是 Spark SQL 和 DataFrame，使得编写数据处理代码比 MapReduce 简单许多。你可以像操作数据库表一样操作大型数据集，使用 SQL 查询数据。

3、分布式计算： Spark 运行在分布式集群上，可以将任务分发到多个节点并行执行，适合处理大规模数据集。它可以和 Hadoop 集群一起使用，或者独立运行在云端或本地集群中。

4、丰富的生态系统： Spark 提供了多个组件，可以处理不同类型的数据任务：

Spark SQL：用于结构化数据处理，可以通过 SQL 查询数据。

Spark Streaming：用于实时流数据处理，处理来自 Kafka、Flume 等的实时数据流。

MLlib：用于机器学习，提供了常见的机器学习算法。

GraphX：用于图计算和图分析。

Spark Core：支持基础的并行计算任务，如 RDD（弹性分布式数据集）操作。

为什么要使用 Spark？

处理大数据：如果你有成千上万的文件、日志数据，或者每天需要处理几百 GB 的数据量，Spark 是一个理想的工具。它能处理比单机系统（如 Pandas）大得多的工作负载，适合数据规模的线性增长。

速度快： Spark 通过将数据加载到内存中进行操作，避免了磁盘 I/O，速度比 Hadoop MapReduce 高很多。在需要反复计算的数据任务中，如迭代式的机器学习算法，它有很大的优势。

多功能性： Spark 不仅支持批处理任务，还支持实时流数据处理、机器学习、图计算等复杂的工作负载，使得你不需要在多个工具之间切换。你可以使用 Spark 处理从静态文件、实时数据流到图形分析的各种任务。

分布式和容错性： Spark 通过分布式集群运行，可以处理非常大的数据集（数百 TB 级别），并且自带容错机制，任务失败时可以自动恢复。

适用场景：

大数据处理： Spark 可以高效处理超大规模的数据集，比如企业的海量日志、社交媒体数据、传感器数据等。

机器学习： Spark 的 MLlib 库提供了一系列机器学习算法，可以帮助构建大规模机器学习模型。

实时数据处理： Spark Streaming 允许你实时处理来自 Kafka 或其他数据源的流数据，适合应用于需要实时监控的场景，比如异常检测、实时推荐等。

复杂查询和分析：使用 Spark SQL，你可以像操作数据库一样处理大规模结构化数据，适合大数据仓库和分析场景。

标签：大数据

本文转载自: https://blog.csdn.net/qq_44117805/article/details/143136408
版权归原作者 萱仔学习自我记录 所有，如有侵权，请联系我们删除。

主流的大数据框架Hadoop/spark