【2024.7.18】 数据中台知识体系
来数据仓库的主要场景是支持管理决策和业务分析,而数据中台则是将数据服务化之后提供给业务系统,目标是将数据能力渗透到各个业务环节,不限于决策分析类场景。数据中台持续不断地将数据进行资产化、价值化并应用到业务,而且关注数据价值的运营。数据中台建设包含数据体系建设,也就是数据中台包含数据仓库的完整内容,数
Spark 2 迁移 Spark 3 参考手册
Apache Spark是一个广泛应用于大规模数据处理的开源统一分析引擎。自发布以来,它已经成为大数据处理的事实标准。2020年发布的Spark 3.0带来了许多新特性和改进,极大地提升了性能和易用性。如果你习惯使用Spark 2,那么了解新版本的变化将非常有帮助。本文将重点介绍Spark 2和Sp
spark查看日志
当 Spark 任务已经提交到集群运行后,可以通过以下几种方式查看/tmp/logs/
spark 广播变量broadcast
broadcast使用如下图,可以看到创建broadcast是val barr1 = sc.broadcast(arr1),使用broadcast是barr1.value创建broadcast是使用的broadcastManager。
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程
上节研究SparkSQL的编码、测试、结果,输入输出,数据源包含Parquet、JSON、CSV、Avro、ORC、Hive、JDBC。本节研究SparkSQL的原理,包含Boradcost、Shuffle、SQL解析和执行的原理。在Spark的物理计划阶段,Spark的Join Selection
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式
上节研究了Spark Streaming 基础数据源,文件流、Socket流、RDD队列流等内容,基础概念、代码实例等等。本节研究DStream的转换,同时附带一个 黑名单过滤业务的实现案例,包含三种实现的方式。一个功能强大的函数,它可以允许开发者直接操作其内部的RDD,也就是说开发者,可以任意提供
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
上节研究了SparkStreaming基础概述、架构概念、编程模型、优缺点概括等内容。本节研究Spark Streaming DStream 文件数据数据流、Socket、RDD队列流等内容。每秒创建一个RDD(RDD存放1-100的整数),Streaming每隔1秒就对数据进行处理,计算RDD中数
Spark基础
spark基础
Spark离线开发指南(详细版)
API:2.1.2–获取分区数API:API:sparkcontext.textFile(参数1,参数2)参数1:必填,文件路径支持本地,支持HDFS,也支持一些比如S3协议参数2:可选,表示最小分区数量注意:参数2话语权不足,spark有自己的判断,在它的允许的范围内,参数2才有效果,超出spar
10大秘籍助力大数据开发者成为行业顶尖人才 |Spark优化技巧 + 软技能进阶
大数据开发者如何突破技术瓶颈?本文深入探讨Spark性能优化、数据倾斜处理等技术挑战,并提供实用的职场软技能提升策略。通过系统化的学习方法、跨团队协作技巧和个人品牌建设,助你在竞争激烈的大数据行业脱颖而出。文章包含业内专家洞见、实战编程挑战,以及自我评估工具。无论你是初级数据工程师还是资深大数据架构
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
上节研究了SparkSQL的JOIN操作,Broadcast、Shuffle、SQL解析的过程详解,SparkSQL的详细优化思路。本节研究SparkStreaming的接触概述,背景概述、基本概念、架构概念、容错性等等。随着大数据技术的不断发展,人们对于大数据的实时性处理要求也不断提高,传统的Ma
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例
上节研究了SparkSQL中的SparkSession、SparkSQL中的RDD、DataFrame、DataSet,同时研究了三者之间是如何进行互相转换的。本节继续研究SparkSQL,研究当中的Action和Transformation操作,附带详细的解释与测试案例截图。 备注:Dataset
在Mac上安装Spark apache-spark-3.5.1
安装spark的步骤较为简单,前提是要安装好Hadoop哦。这里我使用brew来安装,如果你安装了homebrew直接在终端里输入brew install apache-spark然后等着就可以了(如果没有安装过brew的参考其他博主的内容去安装哦)上面这个就是用brew安装好的样子切换到spark
大数据-93 Spark 集群 Spark SQL 概述 基本概念 SparkSQL对比 架构 抽象
上节研究了Spark的Standalone、SparkContext、Shuffle的V1和V2的对比等内容。本节研究SparkSQL,SparkSQL的基本概念、对比、架构、抽象。SparkSQL 是 Apache Spark 中用于处理结构化数据的模块。它不仅支持 SQL 查询,还允许你将 SQ
大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化
上节研究了RDD的容错机制、分区机制、分区器、自定义分区器等内容。本节研究RDD的广播变量、RDD的累加器,用来对Spark程序进行优化的。有时候需要在多个任务之间共享变量,或者在任务(Task)和 Driver Program 之间共享变量。为了满足这个需求,Spark提供了两种类型的变量。广播变
Spark核心知识要点(八)Shuffle配置调优
Spark核心知识要点(八)Shuffle配置调优
大数据-89 Spark 集群 RDD 编程-高阶 编写代码、RDD依赖关系、RDD持久化/缓存
上节研究了Spark的RDD的Super Word Count程序,实现了将计算结果写入到MySQL中。本节研究Spark的高阶编码、RDD的依赖关系,RDD的持久化、RDD的缓存机制。RDD任务切分中间分为:Driver program、Job、Stage(TaskSet) 和 Task。Dri
Spark-SparkContext类解析
SparkDriver 的初始化始终围绕着 SparkContext 的初始化。SparkContext 可以算得上是 Spark 应用程序的发动机引擎,SparkContext 初始化完毕,才能向 Spark 集群提交应用程序,而 SparkContext 的配置参数则由 SparkConf 负责
Spark数据倾斜解决产生原因和解决方案
在对RDD执行shuffle算子时,给shuffle算子传入一个参数,比如reduceByKey(1000),该参数就设置了这个shuffle算子执行 时shuffle read task的数量,即Spark.sql.shuffle.partitions,该参数代表了shuffle read tas
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
上节完成了Spark WordCount的学习,并用Scala 和 Java 分别编写了 WordCount的计算程序。本节研究Spark的案例,手写计算圆周率和寻找计算共同好友。main 方法是 Scala 应用程序的入口点,类似于 Java 中的 main 方法。这段代码用来处理传递给程序的第一