Spark基础
spark基础
Spark离线开发指南(详细版)
API:2.1.2–获取分区数API:API:sparkcontext.textFile(参数1,参数2)参数1:必填,文件路径支持本地,支持HDFS,也支持一些比如S3协议参数2:可选,表示最小分区数量注意:参数2话语权不足,spark有自己的判断,在它的允许的范围内,参数2才有效果,超出spar
10大秘籍助力大数据开发者成为行业顶尖人才 |Spark优化技巧 + 软技能进阶
大数据开发者如何突破技术瓶颈?本文深入探讨Spark性能优化、数据倾斜处理等技术挑战,并提供实用的职场软技能提升策略。通过系统化的学习方法、跨团队协作技巧和个人品牌建设,助你在竞争激烈的大数据行业脱颖而出。文章包含业内专家洞见、实战编程挑战,以及自我评估工具。无论你是初级数据工程师还是资深大数据架构
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
上节研究了SparkSQL的JOIN操作,Broadcast、Shuffle、SQL解析的过程详解,SparkSQL的详细优化思路。本节研究SparkStreaming的接触概述,背景概述、基本概念、架构概念、容错性等等。随着大数据技术的不断发展,人们对于大数据的实时性处理要求也不断提高,传统的Ma
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例
上节研究了SparkSQL中的SparkSession、SparkSQL中的RDD、DataFrame、DataSet,同时研究了三者之间是如何进行互相转换的。本节继续研究SparkSQL,研究当中的Action和Transformation操作,附带详细的解释与测试案例截图。 备注:Dataset
在Mac上安装Spark apache-spark-3.5.1
安装spark的步骤较为简单,前提是要安装好Hadoop哦。这里我使用brew来安装,如果你安装了homebrew直接在终端里输入brew install apache-spark然后等着就可以了(如果没有安装过brew的参考其他博主的内容去安装哦)上面这个就是用brew安装好的样子切换到spark
大数据-93 Spark 集群 Spark SQL 概述 基本概念 SparkSQL对比 架构 抽象
上节研究了Spark的Standalone、SparkContext、Shuffle的V1和V2的对比等内容。本节研究SparkSQL,SparkSQL的基本概念、对比、架构、抽象。SparkSQL 是 Apache Spark 中用于处理结构化数据的模块。它不仅支持 SQL 查询,还允许你将 SQ
大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化
上节研究了RDD的容错机制、分区机制、分区器、自定义分区器等内容。本节研究RDD的广播变量、RDD的累加器,用来对Spark程序进行优化的。有时候需要在多个任务之间共享变量,或者在任务(Task)和 Driver Program 之间共享变量。为了满足这个需求,Spark提供了两种类型的变量。广播变
Spark核心知识要点(八)Shuffle配置调优
Spark核心知识要点(八)Shuffle配置调优
大数据-89 Spark 集群 RDD 编程-高阶 编写代码、RDD依赖关系、RDD持久化/缓存
上节研究了Spark的RDD的Super Word Count程序,实现了将计算结果写入到MySQL中。本节研究Spark的高阶编码、RDD的依赖关系,RDD的持久化、RDD的缓存机制。RDD任务切分中间分为:Driver program、Job、Stage(TaskSet) 和 Task。Dri
Spark-SparkContext类解析
SparkDriver 的初始化始终围绕着 SparkContext 的初始化。SparkContext 可以算得上是 Spark 应用程序的发动机引擎,SparkContext 初始化完毕,才能向 Spark 集群提交应用程序,而 SparkContext 的配置参数则由 SparkConf 负责
Spark数据倾斜解决产生原因和解决方案
在对RDD执行shuffle算子时,给shuffle算子传入一个参数,比如reduceByKey(1000),该参数就设置了这个shuffle算子执行 时shuffle read task的数量,即Spark.sql.shuffle.partitions,该参数代表了shuffle read tas
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
上节完成了Spark WordCount的学习,并用Scala 和 Java 分别编写了 WordCount的计算程序。本节研究Spark的案例,手写计算圆周率和寻找计算共同好友。main 方法是 Scala 应用程序的入口点,类似于 Java 中的 main 方法。这段代码用来处理传递给程序的第一
数据开发/数仓工程师上手指南(三)数仓构建流程
定义关键绩效指标与业务用户和管理层讨论,确定需要在数据仓库中跟踪的KPI。常见KPI招标项目数:总数、按月分布等。投标公司数:总数、每项目投标公司数等。中标率:按项目、按公司等。平均投标时间:从公告发布到投标截止的时间。评标时间:从投标截止到评标完成的时间。定义维度和构建总线矩阵(Bus Matri
大数据-85 Spark 集群 RDD创建 RDD-Action Key-Value RDD详解 RDD的文件输入输出
上节完成了SparkRDD的创建,从集合、文件、RDD创建 RDD的方式,并且详细介绍了 Transformation的操作内容。本节研究Spar的RDD的Action、Key-Value RDD。都需要先把文件当做普通文件来读取数据,然后通过将每一行进行解析实现对CSV的提取。通过 objectF
基于Spark的商品推荐系统设计与实现
在数字化时代的浪潮下,大数据已经渗透到社会的各个领域,特别是在电子商务领域,商品信息的丰富性和用户需求的个性化使得传统的推荐方法难以满足现代商业的需求。它通过计算用户之间的相似度或商品之间的相似度,找到与目标用户兴趣相似的其他用户或与目标商品相似的其他商品,然后根据这些相似用户或商品的评分和偏好,为
spark 读操作
Shuffle read的入口是ShuffleRDD的compute方法。它获取shuffleReader,执行对应的read方法。创建reader的时候首先获取要读的shuffle block对应的信息,创建shuffle reader。read创建wrappedStreams:Iterator[
大数据-81 Spark 安装配置环境 集群环境配置 超详细 三台云服务器
上节完成了Spark的介绍、Spark特点、Spark部署模式、系统架构。本节我们在三台云服务器上实机部署配置Spark的集群环境,包含环境变量与配置等内容。使用我们之前编写的 rsync-script 工具。当然你也可以每台都配置一次也行,只要保证环境一致即可。(之前Hadoop等都使用过,如果你
【Spark集群部署系列二】Spark StandAlone模式介绍和搭建以及使用
【Spark集群部署系列一】Spark local模式介绍和搭建以及使用(内含Linux安装Anaconda)http://t.csdnimg.cn/0xmky 在部署spark集群前,请部署好Hadoop集群,jdk8【当然Hadoop集群需要运行在jdk上】,需要注意hadoop,spark的版
Spark内存模型
Spark 内存管理分为静态内存管理和统一内存管理,在 Spark 1.6 之前是采用的静态内存,之后的版本都是采用统一内存管理,与静态内存管理的区别在于 Storeage 内存和 Execution 内存共享统一块空间,可以动态占用对方的空闲区域。