0


超级暴龙战士的核心竟是——————Hadoop生态圈和spark技术特点

  1. Hadoop 生态圈组件介绍

Hadoop 生态系统包含多个组件,每个组件都有不同的功能。以下是一些核心组件的介绍:

  • HDFS(Hadoop Distributed File System):用于存储大规模数据的分布式文件系统。它将数据分成块并在集群中的多个节点上进行存储。
  • MapReduce:分布式计算框架,用于处理大规模数据集。它将任务分为 Map 阶段和 Reduce 阶段,适合离线数据处理。
  • YARN(Yet Another Resource Negotiator):资源管理器,负责集群资源的分配和调度。
  • Hive:基于 Hadoop 的数据仓库工具,用于查询和分析大规模数据。
  • Pig:高级脚本语言,用于数据分析和转换。
  • HBase:分布式 NoSQL 数据库,适用于实时读写大量数据。
  • Spark:快速、通用、内存计算的大数据处理框架。
  • 630b2cfb0f99a4464ae23ca03b906a91.png

2. MapReduce 概述

  • MapReduce 是一种编程模型,用于处理大规模数据集。
  • 它将任务分为两个阶段:Map 阶段和 Reduce 阶段。
  • Map 阶段将输入数据拆分成键值对,然后应用用户定义的函数进行处理。
  • Reduce 阶段将 Map 阶段的输出进行合并和汇总。
  • MapReduce 适用于离线数据处理,但不适合实时数据处理。

3. Spark 技术特点和概述

  • Spark 是一个通用的大数据处理框架,具有以下特点: - 快速:spark的运行速度比较快- 易用:spark支持使用scala、python、java、R等语言快速编写应用。此外,spark提供超过80个告诫算子,使得编写变得容易。- 通用:spark可以与sql语句、实时计算及其他复杂的分析计算进行良好的结合。- 随处运行:spark作为一个分布式计算框架,本身没有存储功能,但是可以从HDFS、cassandraHBase、Hive、Alluxio等数据源中读取数据。- 代码简洁:支持scala、python、等语言编写,scala和python的代码比java的代码比较简洁。

4. MapReduce 和 Spark 的区别

  • 速度spark在内存中的运行速度比hadoop mapreduce运行速度的100多倍,在磁盘中则是10多倍。
  • 数据处理范式MapReduce 适用于批处理,Spark 更适合实时数据处理和迭代分析。
  • 易用性:Spark 提供更友好的编程接口。
  • 容错性:Spark 的 RDD 比 Hadoop MapReduce 的 HDFS 更容错。
  • 9cc30bcb093240f1858cdbfcf13570fe.png

5. 结构化数据与非结构化数据

  • 结构化数据:具有明确定义的模式和格式,如关系数据库中的表格数据。
  • 非结构化数据:不符合预定义模式的数据,如文本、图像、音频和视频。

6.Linux简单操作命令实训练习

pwd命令

b1ef035be25540e485525eff6b93b399.png

ls命令

d5d4374d63064467acb3f3d7a0d94e57.png

cd命令

2b403e8396474108828d538b205e0c7b.png

mkdir命令

c8ac7b5744754b0288a0fe6585939342.png

rm命令

65a2c72a3304404d90890ec5ae6fb63b.png

cp命令

9d3458649bdf468ab60bcf60595f1792.png

mv命令

fc0284fc28ed489d9eac5ac8348086dd.png

cat命令

b8ab9585d4524487b59acd264ee57356.png

tar命令

196a4202469648daa0f54dbf1c65e86e.png

useradd命令

e45ea6faba5441ce9004a7384f5db4cd.png

passwd命令

6785c0c944574ba6a5716beac1850f0d.png

chown命令

ffdcff4901964a9297f5a232a3261ca0.png

chmod命令

4053ce4468084ae98aebca08a76e762b.png

su命令

fee1746df7db45d99049dfeafb8fd9d0.png

标签: hadoop spark 大数据

本文转载自: https://blog.csdn.net/l996833997/article/details/136537005
版权归原作者 李立奥 所有, 如有侵权,请联系我们删除。

“超级暴龙战士的核心竟是——————Hadoop生态圈和spark技术特点”的评论:

还没有评论