大数据 Spark - overfit.cn

Spark 2 迁移 Spark 3 参考手册

Apache Spark是一个广泛应用于大规模数据处理的开源统一分析引擎。自发布以来，它已经成为大数据处理的事实标准。2020年发布的Spark 3.0带来了许多新特性和改进，极大地提升了性能和易用性。如果你习惯使用Spark 2，那么了解新版本的变化将非常有帮助。本文将重点介绍Spark 2和Sp

overfit同步小助手 2024-08-27 08:03:39 0 收藏

spark查看日志

当 Spark 任务已经提交到集群运行后，可以通过以下几种方式查看/tmp/logs/

overfit同步小助手 2024-08-27 02:03:11 0 收藏

spark 广播变量broadcast

broadcast使用如下图，可以看到创建broadcast是val barr1 = sc.broadcast(arr1)，使用broadcast是barr1.value创建broadcast是使用的broadcastManager。

overfit同步小助手 2024-08-26 23:03:55 0 收藏

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程

上节研究SparkSQL的编码、测试、结果，输入输出，数据源包含Parquet、JSON、CSV、Avro、ORC、Hive、JDBC。本节研究SparkSQL的原理，包含Boradcost、Shuffle、SQL解析和执行的原理。在Spark的物理计划阶段，Spark的Join Selection

overfit同步小助手 2024-08-26 10:03:36 0 收藏

大数据-100 Spark 集群 Spark Streaming DStream转换黑名单过滤的三种实现方式

上节研究了Spark Streaming 基础数据源，文件流、Socket流、RDD队列流等内容，基础概念、代码实例等等。本节研究DStream的转换，同时附带一个黑名单过滤业务的实现案例，包含三种实现的方式。一个功能强大的函数，它可以允许开发者直接操作其内部的RDD，也就是说开发者，可以任意提供

overfit同步小助手 2024-08-26 09:03:29 0 收藏

大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流

上节研究了SparkStreaming基础概述、架构概念、编程模型、优缺点概括等内容。本节研究Spark Streaming DStream 文件数据数据流、Socket、RDD队列流等内容。每秒创建一个RDD（RDD存放1-100的整数），Streaming每隔1秒就对数据进行处理，计算RDD中数

overfit同步小助手 2024-08-26 08:03:14 0 收藏

Spark基础

spark基础

overfit同步小助手 2024-08-26 02:04:00 0 收藏

Spark离线开发指南(详细版)

API：2.1.2–获取分区数API：API：sparkcontext.textFile(参数1，参数2)参数1：必填，文件路径支持本地，支持HDFS，也支持一些比如S3协议参数2：可选，表示最小分区数量注意：参数2话语权不足，spark有自己的判断，在它的允许的范围内，参数2才有效果，超出spar

overfit同步小助手 2024-08-25 22:03:49 0 收藏

10大秘籍助力大数据开发者成为行业顶尖人才｜Spark优化技巧 + 软技能进阶

大数据开发者如何突破技术瓶颈？本文深入探讨Spark性能优化、数据倾斜处理等技术挑战，并提供实用的职场软技能提升策略。通过系统化的学习方法、跨团队协作技巧和个人品牌建设，助你在竞争激烈的大数据行业脱颖而出。文章包含业内专家洞见、实战编程挑战，以及自我评估工具。无论你是初级数据工程师还是资深大数据架构

overfit同步小助手 2024-08-25 15:04:02 0 收藏

大数据-98 Spark 集群 Spark Streaming 基础概述架构概念执行流程优缺点

上节研究了SparkSQL的JOIN操作，Broadcast、Shuffle、SQL解析的过程详解，SparkSQL的详细优化思路。本节研究SparkStreaming的接触概述，背景概述、基本概念、架构概念、容错性等等。随着大数据技术的不断发展，人们对于大数据的实时性处理要求也不断提高，传统的Ma

overfit同步小助手 2024-08-25 08:03:27 0 收藏

大数据-95 Spark 集群 SparkSQL Action与Transformation操作详细解释与测试案例

上节研究了SparkSQL中的SparkSession、SparkSQL中的RDD、DataFrame、DataSet，同时研究了三者之间是如何进行互相转换的。本节继续研究SparkSQL，研究当中的Action和Transformation操作，附带详细的解释与测试案例截图。备注：Dataset

overfit同步小助手 2024-08-24 10:03:25 0 收藏

在Mac上安装Spark apache-spark-3.5.1

安装spark的步骤较为简单，前提是要安装好Hadoop哦。这里我使用brew来安装，如果你安装了homebrew直接在终端里输入brew install apache-spark然后等着就可以了（如果没有安装过brew的参考其他博主的内容去安装哦）上面这个就是用brew安装好的样子切换到spark

overfit同步小助手 2024-08-24 05:03:46 0 收藏

大数据-93 Spark 集群 Spark SQL 概述基本概念 SparkSQL对比架构抽象

上节研究了Spark的Standalone、SparkContext、Shuffle的V1和V2的对比等内容。本节研究SparkSQL，SparkSQL的基本概念、对比、架构、抽象。SparkSQL 是 Apache Spark 中用于处理结构化数据的模块。它不仅支持 SQL 查询，还允许你将 SQ

overfit同步小助手 2024-08-24 00:03:35 0 收藏

大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化

上节研究了RDD的容错机制、分区机制、分区器、自定义分区器等内容。本节研究RDD的广播变量、RDD的累加器，用来对Spark程序进行优化的。有时候需要在多个任务之间共享变量，或者在任务（Task）和 Driver Program 之间共享变量。为了满足这个需求，Spark提供了两种类型的变量。广播变

overfit同步小助手 2024-08-23 18:03:28 0 收藏

Spark核心知识要点（八）Shuffle配置调优

overfit同步小助手 2024-08-23 12:03:45 0 收藏

大数据-89 Spark 集群 RDD 编程-高阶编写代码、RDD依赖关系、RDD持久化/缓存

上节研究了Spark的RDD的Super Word Count程序，实现了将计算结果写入到MySQL中。本节研究Spark的高阶编码、RDD的依赖关系，RDD的持久化、RDD的缓存机制。RDD任务切分中间分为：Driver program、Job、Stage(TaskSet) 和 Task。Dri

overfit同步小助手 2024-08-23 12:03:37 0 收藏

Spark-SparkContext类解析

SparkDriver 的初始化始终围绕着 SparkContext 的初始化。SparkContext 可以算得上是 Spark 应用程序的发动机引擎，SparkContext 初始化完毕，才能向 Spark 集群提交应用程序，而 SparkContext 的配置参数则由 SparkConf 负责

overfit同步小助手 2024-08-23 03:03:26 0 收藏

Spark数据倾斜解决产生原因和解决方案

在对RDD执行shuffle算子时，给shuffle算子传入一个参数，比如reduceByKey(1000)，该参数就设置了这个shuffle算子执行时shuffle read task的数量，即Spark.sql.shuffle.partitions，该参数代表了shuffle read tas

overfit同步小助手 2024-08-21 03:03:46 0 收藏

大数据-87 Spark 集群案例学习 Spark Scala 案例手写计算圆周率、计算共同好友

上节完成了Spark WordCount的学习，并用Scala 和 Java 分别编写了 WordCount的计算程序。本节研究Spark的案例，手写计算圆周率和寻找计算共同好友。main 方法是 Scala 应用程序的入口点，类似于 Java 中的 main 方法。这段代码用来处理传递给程序的第一

overfit同步小助手 2024-08-20 13:03:42 0 收藏

数据开发/数仓工程师上手指南(三)数仓构建流程

定义关键绩效指标与业务用户和管理层讨论，确定需要在数据仓库中跟踪的KPI。常见KPI招标项目数：总数、按月分布等。投标公司数：总数、每项目投标公司数等。中标率：按项目、按公司等。平均投标时间：从公告发布到投标截止的时间。评标时间：从投标截止到评标完成的时间。定义维度和构建总线矩阵（Bus Matri

overfit同步小助手 2024-08-19 15:03:40 0 收藏