SparkSQL 总结（未完待续）

SparkSQL

一. 概述

Spark SQL 是Spark 用于结构化数据(structured data)处理的 Spark 模块。

1.1 Hive and SparkSQL

SparkSQL 的前身是 Shark，而 Shark 是伯克利实验室 Spark 生态环境的组件之一，是基于Hive 所开发的工具；

但是，随着Spark 的发展，对于野心勃勃的Spark 团队来说，Shark 对于 Hive 的太多依赖（如采用 Hive 的
语法解析器、查询优化器等等），制约了 Spark 的One Stack Rule Them All 的既定方针，制约了 Spark 各个组件的相互集成，所以提出了 SparkSQL 项目。SparkSQL 抛弃原有 Shark 的代码，汲取了 Shark 的一些优点，如内存列存储（In-Memory ColumnarStorage）、Hive 兼容性等，重新开发了SparkSQL 代码；由于摆脱了对Hive 的依赖性，SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便，真可谓“退一步，海阔天空”。

SparkSQL 作为 Spark 生态的一员继续发展，而不再受限于 Hive，只是兼容 Hive；
Hive on Spark 是一个Hive 的发展计划，该计划将 Spark 作为Hive 的底层引擎之一，也就是说，Hive 将不再受限于一个引擎，可以采用 Map-Reduce、Tez、Spark 等引擎。
对于开发人员来讲，SparkSQL 可以简化RDD 的开发，提高开发效率，且执行效率非常快，所以实际工作中，基本上采用的就是 SparkSQL。

hive: 将SQL转换为MapReduce来执行；
Spark： SparkSQL是为了简化RDD的开发，把RDD做了一套封装，
写SparkSQL时会自动把封装好的模型转化为RDD ！而封装的模型就是DateFrame和DateSet ；

1.2 SparkSQL 特点

易整合
无缝的整合了 SQL 查询和 Spark 编程

统一的数据访问
使用相同的方式连接不同的数据源(hbase , hive, Mysql)

兼容 Hive
在已有的仓库上直接运行 SQL 或者 HiveQL (SparkSQL前身就是与Hive结合的Shark)

标准数据连接
通过 JDBC 或者 ODBC 来连接

1.3 DataFrame 是什么？

RDD只关心数据，DataFrame更关心元数据的结构信息；

DataFrame 是一种以 RDD 为基础的分布式数据集，类似于传统数据库中的二维表格。

DataFrame 与 RDD 的主要区别在于：
DataFrame 带有 schema 元信息，即 DataFrame 所表示的二维表数据集的每一列都带有名称和类型。而RDD只关心数据而不关心数据的结构。

同时，与Hive 类似，DataFrame 也支持嵌套数据类型（struct、array 和 map）。从 API 易用性的角度上看，DataFrame API 提供的是一套高层的关系操作，比函数式的 RDD API 要更加友好，门槛更低。
在这里插入图片描述
如图，RDD中只有一个个Person 泛型。数据都是Person的对象，不关心数据的属性。
DataFrame像二维表格，会保存数据的元数据信息；

左侧的 RDD[Person]虽然以 Person 为类型参数，但 Spark 框架本身不了解Person 类的内部结构。
而右侧的DataFrame 却提供了详细的结构信息，使得 Spark SQL 可以清楚地知道该数据集中包含哪些列，每列的名称和类型各是什么。
DataFrame 是为数据提供了 Schema 的视图。可以把它当做数据库中的一张表来对待；

1.4 DataSet 是什么？

DataSet 把一行数据当成一个对象来用；

DataSet 是分布式数据集合。DataSet 是Spark 1.6 中添加的一个新抽象，是DataFrame的一个扩展；
它提供了RDD 的优势（强类型，使用强大的 lambda 函数的能力）以及SparkSQL 优化执行引擎的优点。DataSet 也可以使用功能性的转换（操作 map，flatMap，filter等等）；

DataSet 是DataFrame API 的一个扩展，是SparkSQL 最新的数据抽象；

DataSet 是强类型的。比如可以有 DataSet[Car]，DataSet[Person]

DataFrame 是DataSet 的特列，

DataFrame=DataSet[Row]

，所以可以通过 as 方法将DataFrame 转换DataSet。
Row 是一个类型，跟 Car、Person 这些的类型一样，所有的表结构信息都用 Row 来表示。获取数据时需要指定顺序；

二. 核心编程

2.1 环境

Spark Core 中，如果想要执行应用程序，需要首先构建上下文环境对象 SparkContext （sc）；
而Spark SQL 其实可以理解为对 Spark Core 的一种封装，不仅仅在模型上进行了封装，上下文环境对象也进行了封装。

SparkSession 是 Spark 最新的 SQL 查询起始点，实质上是 SQLContext 和HiveContext 的组合，所以在 SQLContex 和HiveContext 上可用的API 在 SparkSession 上同样是可以使用的。
SparkSession 内部封装了 SparkContext，所以计算实际上是由 sparkContext 完成的；

sc即选择Spark Context为环境对象
spark即选择Spark Session为环境对象
在这里插入图片描述

标签： hive 大数据 hadoop

本文转载自: https://blog.csdn.net/Swofford/article/details/126767553
版权归原作者 斯沃福德 所有，如有侵权，请联系我们删除。