0


尚硅谷大数据技术Spark2024新版教程-笔记01【Spark概述、Spark运行模式】

视频地址:尚硅谷2024新版本Spark教程,一套搞定大数据Spark3.x!_哔哩哔哩_bilibili

  1. 尚硅谷大数据技术Spark2024新版教程-笔记01【】
  2. 尚硅谷大数据技术Spark2024新版教程-笔记02【】
  3. 尚硅谷大数据技术Spark2024新版教程-笔记03【】
  4. 尚硅谷大数据技术Spark2024新版教程-笔记04【】
  5. 尚硅谷大数据技术Spark2024新版教程-笔记05【】
  6. 尚硅谷大数据技术Spark2024新版教程-笔记06【】
  7. 尚硅谷大数据技术Spark2024新版教程-笔记07【】

01_尚硅谷大数据技术之Spark入门(V5.0)

P001【001 - Spark - 课程介绍】02:04

本套教程基于Spark 3.3版本,力求让学习者对分布式计算的原理、框架的使用建立深刻的理解,从而将Spark应用于企业的项目中。

Apache Spark 版本(version):3.3.1

基于 Java 和 Scala 开发的作为大规模数据处理快速通用的分布式计算引擎。

P002【002 - Spark - 文件结构 - 介绍】02:10

P003【003 - Spark - 基础概念 - 介绍 - 分布式】07:02

  1. Spark:分布式计算引擎(框架),基于 MR 开发的,
  2. HDFS:分布式存储
  3. Kafka:分布式消息传输
  4. MR:分布式计算

抢占CPU的操作由进程来完成,执行是执行线程。

P004【004 - Spark - 基础概念 - 介绍 - 计算】12:04

P005【005 - Spark - 基础概念 - 介绍 - 分布式基础架构】08:14

P006【006 - Spark - 基础概念 - 介绍 - 框架】12:21

P007【007 - Spark - 基础概念 - 介绍 - Spark和MR的关系】18:30

第1章 Spark概述

P008【008 - Spark - 介绍】11:51

回顾:Hadoop主要解决,海量数据的存储和海量数据的分析计算。

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

第2章 Spark运行模式

P009【009 - Spark - 部署方式 - 介绍】13:24

部署Spark集群大体上分为两种模式:单机模式与集群模式

大多数分布式框架都支持单机模式,方便开发者调试框架的运行环境。但是在生产环境中,并不会使用单机模式。因此,后续直接按照集群模式部署Spark集群。

下面详细列举了Spark目前支持的部署模式。

(1)Local****模式:在本地部署单个Spark服务

(2)Standalone****模式:Spark自带的任务调度模式。(国内不常用)

(3)YARN****模式:Spark使用Hadoop的YARN组件进行资源与任务调度。(国内最常用)

(4)Mesos****模式:Spark使用Mesos平台进行资源与任务的调度。(国内很少用)

P010【010 - Spark - 解压后的文件结构】07:58

P011【011 - Spark - 部署环境 - Local】09:15

P012【012 - Spark - 部署环境 - Local - 演示】20:41

P013【013 - Spark - 部署环境 - Yarn - 演示】19:30

P014【014 - Spark - 部署环境 - Yarn - 历史服务】06:50

P015【015 - Spark - 部署环境 - Yarn - 2种执行方式Cluster和Client】17:50

P016【016 - Spark - 部署环境 - 几种模式的对比】07:02


本文转载自: https://blog.csdn.net/weixin_44949135/article/details/140324822
版权归原作者 upward337 所有, 如有侵权,请联系我们删除。

“尚硅谷大数据技术Spark2024新版教程-笔记01【Spark概述、Spark运行模式】”的评论:

还没有评论