作者:禅与计算机程序设计艺术
1.简介
1.1 概述
Apache Spark 是由 Apache 基金会开发的开源分布式计算框架,最初用于对大规模数据进行快速的处理,在大数据计算领域占据重要地位。其独特的高性能处理能力及丰富的数据处理功能使得 Spark 在各个行业应用广泛。Spark SQL 是 Spark 提供的用于结构化数据的查询语言,具有灵活的数据处理能力、易用性、可移植性等优点。本教程将带领读者了解 Spark SQL 的基础知识、语法、使用方法和实践经验。
1.2 目标受众
本教程面向对 Apache Spark 有一定了解但对 Spark SQL 并不熟悉的读者,包括 Spark 用户、程序员和数据科学家。希望通过本教程能够帮助读者熟练掌握 Spark SQL,掌握使用 Spark SQL 进行数据分析的相关技能,进一步提升数据科学家的职场竞争力和能力。同时,本教程还会提供一个实操能力很强的学习环境,让读者能够实际感受到 Spark SQL 的魅力。
2.基本概念术语说明
2.1 什么是 Spark SQL?
Spark SQL(Structured Query Language)是 Apache Spark 提供的一种统一的 API,可以用来处理结构化或半结构化的数据,如 CSV、JSON 文件、Hive Tables、Parquet Files 和 HBase Tables 等等。它基于 HiveQL(Hadoop Query Language)构建而成,提供了类 SQL 的语法,支持完整的 ANSI SQL 标准。Spark SQL 可以运行于 Hadoop YARN、Mesos 或独立集群
版权归原作者 禅与计算机程序设计艺术 所有, 如有侵权,请联系我们删除。