Spark - overfit.cn

大数据-89 Spark 集群 RDD 编程-高阶编写代码、RDD依赖关系、RDD持久化/缓存

上节研究了Spark的RDD的Super Word Count程序，实现了将计算结果写入到MySQL中。本节研究Spark的高阶编码、RDD的依赖关系，RDD的持久化、RDD的缓存机制。RDD任务切分中间分为：Driver program、Job、Stage(TaskSet) 和 Task。Dri

overfit同步小助手 2024-08-23 12:03:37 0 收藏

Spark-SparkContext类解析

SparkDriver 的初始化始终围绕着 SparkContext 的初始化。SparkContext 可以算得上是 Spark 应用程序的发动机引擎，SparkContext 初始化完毕，才能向 Spark 集群提交应用程序，而 SparkContext 的配置参数则由 SparkConf 负责

overfit同步小助手 2024-08-23 03:03:26 0 收藏

Spark数据倾斜解决产生原因和解决方案

在对RDD执行shuffle算子时，给shuffle算子传入一个参数，比如reduceByKey(1000)，该参数就设置了这个shuffle算子执行时shuffle read task的数量，即Spark.sql.shuffle.partitions，该参数代表了shuffle read tas

overfit同步小助手 2024-08-21 03:03:46 0 收藏

大数据-87 Spark 集群案例学习 Spark Scala 案例手写计算圆周率、计算共同好友

上节完成了Spark WordCount的学习，并用Scala 和 Java 分别编写了 WordCount的计算程序。本节研究Spark的案例，手写计算圆周率和寻找计算共同好友。main 方法是 Scala 应用程序的入口点，类似于 Java 中的 main 方法。这段代码用来处理传递给程序的第一

overfit同步小助手 2024-08-20 13:03:42 0 收藏

数据开发/数仓工程师上手指南(三)数仓构建流程

定义关键绩效指标与业务用户和管理层讨论，确定需要在数据仓库中跟踪的KPI。常见KPI招标项目数：总数、按月分布等。投标公司数：总数、每项目投标公司数等。中标率：按项目、按公司等。平均投标时间：从公告发布到投标截止的时间。评标时间：从投标截止到评标完成的时间。定义维度和构建总线矩阵（Bus Matri

overfit同步小助手 2024-08-19 15:03:40 0 收藏

大数据-85 Spark 集群 RDD创建 RDD-Action Key-Value RDD详解 RDD的文件输入输出

上节完成了SparkRDD的创建，从集合、文件、RDD创建 RDD的方式，并且详细介绍了 Transformation的操作内容。本节研究Spar的RDD的Action、Key-Value RDD。都需要先把文件当做普通文件来读取数据，然后通过将每一行进行解析实现对CSV的提取。通过 objectF

overfit同步小助手 2024-08-19 12:03:35 0 收藏

基于Spark的商品推荐系统设计与实现

在数字化时代的浪潮下，大数据已经渗透到社会的各个领域，特别是在电子商务领域，商品信息的丰富性和用户需求的个性化使得传统的推荐方法难以满足现代商业的需求。它通过计算用户之间的相似度或商品之间的相似度，找到与目标用户兴趣相似的其他用户或与目标商品相似的其他商品，然后根据这些相似用户或商品的评分和偏好，为

overfit同步小助手 2024-08-19 11:03:53 0 收藏

spark 读操作

Shuffle read的入口是ShuffleRDD的compute方法。它获取shuffleReader，执行对应的read方法。创建reader的时候首先获取要读的shuffle block对应的信息，创建shuffle reader。read创建wrappedStreams：Iterator[

overfit同步小助手 2024-08-19 04:03:57 0 收藏

大数据-81 Spark 安装配置环境集群环境配置超详细三台云服务器

上节完成了Spark的介绍、Spark特点、Spark部署模式、系统架构。本节我们在三台云服务器上实机部署配置Spark的集群环境，包含环境变量与配置等内容。使用我们之前编写的 rsync-script 工具。当然你也可以每台都配置一次也行，只要保证环境一致即可。（之前Hadoop等都使用过，如果你

overfit同步小助手 2024-08-18 15:03:20 0 收藏

【Spark集群部署系列二】Spark StandAlone模式介绍和搭建以及使用

【Spark集群部署系列一】Spark local模式介绍和搭建以及使用（内含Linux安装Anaconda)http://t.csdnimg.cn/0xmky 在部署spark集群前，请部署好Hadoop集群，jdk8【当然Hadoop集群需要运行在jdk上】，需要注意hadoop，spark的版

overfit同步小助手 2024-08-18 04:03:52 0 收藏

Spark内存模型

Spark 内存管理分为静态内存管理和统一内存管理，在 Spark 1.6 之前是采用的静态内存，之后的版本都是采用统一内存管理，与静态内存管理的区别在于 Storeage 内存和 Execution 内存共享统一块空间，可以动态占用对方的空闲区域。

overfit同步小助手 2024-08-17 03:03:42 0 收藏

大数据-84 Spark 集群 RDD创建 RDD-Transformation操作算子详解

上节Spark的RDD介绍、RDD特点、Spark编程模型。本节研究SparkRDD的创建，RDD-Transformation操作算子，并附带测试案例，详细过程。转换得到RDD是惰性求值，也就是说，整个转换过程只有记录了转换的轨迹，并不会发生真正的计算，只有遇到Action操作时，才会发生真正的计

overfit同步小助手 2024-08-17 00:03:20 0 收藏

数据仓库-离线集市概述

数据集市（Datamart）是数据仓库的一个逻辑子集，专注于满足特定业务部门或领域的数据需求。与全面覆盖整个企业数据需求的数据仓库相比，数据集市更加聚焦和简洁，通常用于解决特定部门的业务问题或支持特定的分析需求。它可以看作是一个小型的数据仓库，具有独立的数据模型和存储方案，以便于更快速和高效地处理特

overfit同步小助手 2024-08-16 13:03:32 0 收藏

大数据-82 Spark 集群模式启动 Hadoop HDFS Spark 与 HelloWorld！

上节完成了Spark的环境配置，集群配置，并且通过分发把服务分发到了别的服务器上等内容。本节我们对集群进行启动和测试，需要HDFS和Spark的环境。这里Spark提供了一个官方的HelloWorld（前提你配置好环境变量，不然你需要到指定目录执行）我们通过查看 h121 的日志，可以看到是 808

overfit同步小助手 2024-08-16 11:04:02 0 收藏

Kyuubi1.6.0+Spark3.0.0部署

Kyuubi1.6.0是支持Spark3.0.0的最后一个版本，再往上需要更高的Spark版本，我这里就没再测试。

overfit同步小助手 2024-08-16 03:03:17 0 收藏

Spark Structured Streaming窗口聚合和非窗口聚合

两者都用于对数据进行聚合操作，支持类似的聚合函数（如求和、平均值等）窗口聚合基于时间窗口进行计算，适用于流处理；非窗口聚合对整个数据集进行计算，适用于批处理，你可以这样理解，离线计算本身就是一个非常大的窗口计算，窗口大到容纳下所有的数据，而事实计算的窗口是比较小的窗口，也就是计算结果只是数据集上的一

overfit同步小助手 2024-08-15 11:03:43 0 收藏

大数据-80 Spark 简要概述系统架构部署模式与Hadoop MapReduce对比

上节我们终于到了Kafka最后一个内容，集群的可视化方案，JConsole、Kafka Eagle等内容，同时用JavaAPI获得监控指标。本节研究Spark的简要概述，系统架构、部署模式、与MapReduce进行对比。MapReduce 昨天Spark 今天Flink 未来MapReduce和Sp

overfit同步小助手 2024-08-15 10:03:17 0 收藏

Spark内核的设计原理

同时Spark有任务级别的内存管理，任务的计算属于执行内存的一部分。包括检查点支持，易于使用（支持Java，Scala，Python等编程语言），交互式（Spark Shell）和SQL分析（借鉴了ANSI SQL等标准的实用语法和功能），批流一体，丰富的数据支持，高可用，丰富的文件格式支持。DAG

overfit同步小助手 2024-08-15 03:03:48 0 收藏

搭建hadoop+spark完全分布式集群环境

tar -zxvf jdk-8u181-linux-x64.tar.gz -C /home/hadoop/apps #解压到apps下。进入/home/hadoop/apps/hadoop-2.7.6/etc/Hadoop。sudo vi /etc/profile #修改配置文件。start-s

overfit同步小助手 2024-08-14 02:03:49 0 收藏

详解 Spark 各种运行环境的搭建

Mesos 是 Apache 下的开源分布式资源管理框架Kubernetes（k8s）是目前最为流行的容器管理工具Windows 模式：将解压缩到无中文无空格的路径中执行解压缩文件路径下bin目录中的文件，启动 Spark 本地环境编写 Scala 程序执行或在 DOS 命令行窗口中执行提交指令。

overfit同步小助手 2024-08-14 02:03:46 0 收藏