云计算复习之Spark（Scala版）期末复习整理

声明:
1. 本文针对的是一个知识的梳理，自行整理以及方便记忆
2. 若有错误不当之处, 请指出

Scala是一种针对JVM 将面向函数和面向对象技术组合在一起的编程语言。Scala编程语言近来抓住了很多开发者的眼球。它看起来像是一种纯粹的面向对象编程语言，而又无缝地结合了命令式和函数式的编程风格。

Scala官网6个特征：

1).Java和scala可以混编

2).类型推测(自动推测类型)

3).并发和分布式

4).特质，特征(类似java中interfaces 和 abstract结合)

5).模式匹配（类似java switch）

6).高阶函数
scala有个原则就是极简原则，不用写的东西一概不写。

Scala的基本操作具体参考：Scala快速入门(适用于学习Spark)_scala spark-CSDN博客

Spark的特点：快速，易用，通用，随处运行

MapReduce和Spark的对比：

spark是内存计算框架，mapreduce是磁盘计算框架

这张图显而易见，性能高

Spark的生态系统良好，学习起来方便

基本概念与架构

driver作为管家结点，当执行一个Application时，Driver会向集群管理器申请资源，启动Executor，并向Executor发送应用程序代码和文件，然后在Executor上执行Task，运行结束后，执行结果会返回给Driver，或者写到HDFS或者其他数据库中

简述Spark集群的基本运行流程

1）spark集群启动后，Worker向Master注册信息，spark-submit命令提交程序后，driver和application也会向Master注册信息，创建SparkContext对象：主要的对象包含DAGScheduler和TaskScheduler
2）Driver把Application信息注册给Master后，Master会根据App信息去Worker节点启动Executor
3）Executor内部会创建运行task的线程池，然后把启动的Executor反向注册给Dirver
4）DAGScheduler：负责把Spark作业转换成Stage的DAG（Directed Acyclic Graph有向无环图），根据宽窄依赖切分Stage，然后把Stage封装成TaskSet的形式发送个TaskScheduler；同时DAGScheduler还会处理由于Shuffle数据丢失导致的失败；
5）TaskScheduler：维护所有TaskSet，分发Task给各个节点的Executor（根据数据本地化策略分发Task），监控task的运行状态，负责重试失败的task；
6）所有task运行完成后，SparkContext向Master注销，释放资源；

1.为应用构建起基本的运行环境，即由Driver创建一个SparkContext进行资源的申请、任务的分配和监控（SparkContext构建起应用和集群直接的联系，连接集群的通道）

2.资源管理器为Executor分配资源，并启动Executor进程

写入RDD的原因