重生之救赎（Spark的救赎）新手小白适用

认识Spark

认识spark之发展史

快速、易用、通用、随处运行、代码简洁

快速：一般情况下，对于迭代次数较多的应用程序，Spark程序在内存中的运行速度是Hadoop MapReduce运行速度的100多倍，在磁盘上的运行速度是Hadoop MapReduce运行速度的10多倍。
易用：Spark支持使用Scala、Python、Java及R语言快速编写应用。同时Spark提供超过80个高阶算子，使得编写并行应用程序变得容易，并且可以在Scala、Python或R的交互模式下使用Spark。
通用：Spark可以与SQL、Streaming及复杂的分析良好结合。Spark还有一系列的高级工具，包括Spark SQL、MLlib（机器学习库）、GraphX（图计算）和Spark Streaming（流计算），并且支持在一个应用中同时使用这些组件。

** 4.随处运行：用户可以使用Spark的独立集群模式运行Spark，也可以在EC2（亚马逊弹性计算云）、Hadoop YARN或者Apache Mesos上运行Spark。并且可以从HDFS、Cassandra、HBase、Hive、Tachyon**和任何分布式文件系统读取数据。

** 6.代码简洁：**

Spark****集群的环境可分为单机版环境、单机伪分布式环境和完全分布式环境。

软件环境：

Spark单机伪分布式是在一台机器上既有Master，又有Worker进程。搭建Spark单机伪分布式环境可在Hadoop****伪分布式的基础上进行搭建。
搭建Spark****单机伪分布式集群的步骤如下。
将Spark安装包解压到/usr/local目录下。
进入到Spark安装包的conf目录下，将spark-env.sh.template复制为spark-env.sh。
打开spark-env.sh****文件，在文件末尾添加如下所示的内容。
目录切换到sbin****目录下启动集群。
jps****查看进程。
使用计算SparkPi来计算Pi的值。

切换至Spark安装目录的/sbin目录下，启动Spark集群。

启动关闭Spark

cd /usr/local/spark-3.2.1-bin-hadoop2.7/

sbin/start-all.sh

sbin/start-history-server.sh

cd /usr/local/spark-3.2.1-bin-hadoop2.7/

sbin/stop-all.sh

sbin/stop-history-server.sh

RDD（Resilient Distributed Datasets弹性分布式数据集），可以简单的把RDD理解成一个提供了许多操作接口的数据集合，和一般数据集不同的是，其实际数据分布存储于一批机器中（内存或磁盘中）。

标签： spark 大数据分布式

本文转载自: https://blog.csdn.net/zhangfafa_c/article/details/136526914
版权归原作者 发财糕 所有，如有侵权，请联系我们删除。