大数据 Spark - overfit.cn

Spark RDD结课总结

生成的RDD中保存的是T的值，Seq[String]部分的数据会按照Seq[(T,Seq[String])]的顺序存放到各个分区中，一个Seq[String]对应存放至一个分区，并为数据提供位置信息，通过preferredLocations()方法可以根据位置信息查看每一个分区的值。reduceBy

overfit同步小助手 2024-07-30 03:03:51 0 收藏

MLlib机器学习入门：用Spark打造预测模型

Apache Spark 已然成为大数据处理领域的一颗璀璨明星。它以其卓越的性能、易用性以及丰富的生态系统，吸引了无数开发者投身于大数据的浪潮之中。如果你正是一名向往大数据领域的开发者，或是已经涉足其中但希望更深入地掌握Spark技术，那么请跟随这篇指南，我们将以一种“糙快猛”的策略，高效开启你的大

overfit同步小助手 2024-07-30 00:03:45 0 收藏

pyspark从0开始的入门教程

PySpark 是 Python 中 Apache Spark 的接口。使用 PySpark，您可以编写类似 Python 和类似 SQL 的命令，以在分布式处理环境中操作和分析数据。这是一个初学者程序，将引导您使用 PySpark 操作数据、构建机器学习管道和调整模型。

overfit同步小助手 2024-07-30 00:03:40 0 收藏

CDH6.3.2之升级spark-3.3.1

CDH中Spark默认版本2.4.0，我们对Hive升级到3.1.3版本，由于并未找到对应的 spark-hive 包，于是尝试使用Spark-3.3.1。spark3.3.1 for CDH6.3.2 包下载链接。

overfit同步小助手 2024-07-29 21:03:52 0 收藏

hadoop上的spark和Scala安装与配置

进入 /opt/software/ 查看是否导入scala、spark包（刚开始就导入包了，这里直接查看）然后进行文件的托拽到（/opt/software）目录下，也可以复制哦（可以两个包一起导入）（2）进入 /opt/software/ 查看是否导入scala、spark包。然后用tar命令解

overfit同步小助手 2024-07-28 12:03:43 0 收藏

spark运行的基本流程

Stage的DAG通过最后执行Stage为根进行广度优先遍历，遍历到最开始执行的Stage执行，如果提交的Stage仍有未完成的父母Stage，则Stage需要等待其父Stage执行完才能执行。我们都知道， spark计算模型是在分布式的环境下计算的，这就不可能在单进程空间中容纳所有的计算数

overfit同步小助手 2024-07-28 11:03:20 0 收藏

Spark的动态资源分配算法

本文讲解了Spark on Yarn的动态资源分配场景下，从Task信息的生成，到资源的请求，以及将生成的Task基于资源的Locality Preference调度到生成的Executor的整个过程。

overfit同步小助手 2024-07-27 20:03:59 0 收藏

Spark提交任务参数全面解析

overfit同步小助手 2024-07-27 19:03:32 0 收藏

大数据面试题之Spark(1)

overfit同步小助手 2024-07-27 16:03:51 0 收藏

spark如何搭建本地模式

1、获取spark和Hadoop、scala的对应安装包，注意版本间一定要匹配，否则无法使用使用，本次学习使用的事scala2.12.11、hadoop3.0.0、spark-3.0.0-bin-hadoop3.2。3、跟着【spark本地安装辅助教程】安装，注意教程的内容不是全部适用、hadoop

overfit同步小助手 2024-07-27 12:03:17 0 收藏

Spark---核心概念（Spark,RDD,Spark的核心构成组件）详解

Spark就是一个集成离线计算，实时计算，SQL查询，机器学习，图计算为一体的通用的计算框架。何为RDD？其实RDD就是一个不可变的scala的并行集合。Spark的核心概念就是RDD，指的是一个不可变、可分区、里面元素可并行计算的集合，这个数据的全部或者部分可以缓存在内存中，在多次计算间被重用。

overfit同步小助手 2024-07-27 09:03:12 0 收藏

大数据面试题之Spark(7)

overfit同步小助手 2024-07-26 19:03:34 0 收藏

摸鱼大数据——Spark Structured Steaming——物联网数据分析案例

{'deviceID': 'device_1_1', 'deviceType': '油烟机', 'deviceSignal': 23, 'time': '1668848417'} {'deviceID': 'device_0_4', 'deviceType': '洗衣机', 'deviceSigna

overfit同步小助手 2024-07-26 06:03:39 0 收藏

Spark-广播变量详解

Spark广播变量

overfit同步小助手 2024-07-25 19:03:41 0 收藏

Spark实现电商消费者画像案例

overfit同步小助手 2024-07-25 17:03:44 0 收藏

Python--Spark RDD filter 方法使用及性能优化笔记

在Apache Spark中，RDD（弹性分布式数据集）是基本的数据结构，用于处理大规模数据集。filter是 RDD 的一个常用方法，用于对数据进行过滤，只保留满足特定条件的数据。

overfit同步小助手 2024-07-25 12:03:48 0 收藏

Spark常见算子详解

groupByKey 和groupby 的区别是前者是确定以key为分组，所以只返回value的迭代器，程序上后者不确定以什么来分组，所以返回[(String,Int) (K,V)]定义：countByKey算子统计K-v类型的数据中的Key的次数，countByValue统计所有的value出现的

overfit同步小助手 2024-07-25 10:03:51 0 收藏

数据平台发展史-从数据仓库数据湖到数据湖仓

所谓「数据平台，主要是指数据分析平台，其消费（分析）内部和外部其它系统生成的各种原始数据（比如券商柜台系统产生的各种交易流水数据，外部行情数据等），对这些数据进行各种分析挖掘以生成衍生数据，从而支持企业进行数据驱动的决策」数据分析平台，需要上游系统（内部或外部）提供原始数据；- 数据分析平台，会经过

overfit同步小助手 2024-07-25 06:03:39 0 收藏

Spark源码阅读02-Spark核心原理之作业执行原理

学习技术一定要制定一个明确的学习路线，这样才能高效的学习，不必要做无效功，既浪费时间又得不到什么效率，大家不妨按照我这份路线来学习。大家不妨直接在牛客和力扣上多刷题，同时，我也拿了一些面试题跟大家分享，也是从一些大佬那里获得的，大家不妨多刷刷题，为金九银十冲一波！} else 0Ltry {//首先

overfit同步小助手 2024-07-25 01:03:48 0 收藏

Spark SQL 的总体工作流程

Spark SQL 结合了 SQL 的易用性和 Spark 的分布式计算能力，通过优化查询计划和内存管理，为大规模数据处理提供了一个强大、灵活且高效的解决方案。

overfit同步小助手 2024-07-24 21:03:46 0 收藏