Spark - overfit.cn

spark如何搭建本地模式

1、获取spark和Hadoop、scala的对应安装包，注意版本间一定要匹配，否则无法使用使用，本次学习使用的事scala2.12.11、hadoop3.0.0、spark-3.0.0-bin-hadoop3.2。3、跟着【spark本地安装辅助教程】安装，注意教程的内容不是全部适用、hadoop

overfit同步小助手 2024-07-27 12:03:17 0 收藏

Spark---核心概念（Spark,RDD,Spark的核心构成组件）详解

Spark就是一个集成离线计算，实时计算，SQL查询，机器学习，图计算为一体的通用的计算框架。何为RDD？其实RDD就是一个不可变的scala的并行集合。Spark的核心概念就是RDD，指的是一个不可变、可分区、里面元素可并行计算的集合，这个数据的全部或者部分可以缓存在内存中，在多次计算间被重用。

overfit同步小助手 2024-07-27 09:03:12 0 收藏

大数据面试题之Spark(7)

overfit同步小助手 2024-07-26 19:03:34 0 收藏

摸鱼大数据——Spark Structured Steaming——物联网数据分析案例

{'deviceID': 'device_1_1', 'deviceType': '油烟机', 'deviceSignal': 23, 'time': '1668848417'} {'deviceID': 'device_0_4', 'deviceType': '洗衣机', 'deviceSigna

overfit同步小助手 2024-07-26 06:03:39 0 收藏

Spark-广播变量详解

Spark广播变量

overfit同步小助手 2024-07-25 19:03:41 0 收藏

Spark实现电商消费者画像案例

overfit同步小助手 2024-07-25 17:03:44 0 收藏

Python--Spark RDD filter 方法使用及性能优化笔记

在Apache Spark中，RDD（弹性分布式数据集）是基本的数据结构，用于处理大规模数据集。filter是 RDD 的一个常用方法，用于对数据进行过滤，只保留满足特定条件的数据。

overfit同步小助手 2024-07-25 12:03:48 0 收藏

Spark常见算子详解

groupByKey 和groupby 的区别是前者是确定以key为分组，所以只返回value的迭代器，程序上后者不确定以什么来分组，所以返回[(String,Int) (K,V)]定义：countByKey算子统计K-v类型的数据中的Key的次数，countByValue统计所有的value出现的

overfit同步小助手 2024-07-25 10:03:51 0 收藏

数据平台发展史-从数据仓库数据湖到数据湖仓

所谓「数据平台，主要是指数据分析平台，其消费（分析）内部和外部其它系统生成的各种原始数据（比如券商柜台系统产生的各种交易流水数据，外部行情数据等），对这些数据进行各种分析挖掘以生成衍生数据，从而支持企业进行数据驱动的决策」数据分析平台，需要上游系统（内部或外部）提供原始数据；- 数据分析平台，会经过

overfit同步小助手 2024-07-25 06:03:39 0 收藏

Spark源码阅读02-Spark核心原理之作业执行原理

学习技术一定要制定一个明确的学习路线，这样才能高效的学习，不必要做无效功，既浪费时间又得不到什么效率，大家不妨按照我这份路线来学习。大家不妨直接在牛客和力扣上多刷题，同时，我也拿了一些面试题跟大家分享，也是从一些大佬那里获得的，大家不妨多刷刷题，为金九银十冲一波！} else 0Ltry {//首先

overfit同步小助手 2024-07-25 01:03:48 0 收藏

Spark SQL 的总体工作流程

Spark SQL 结合了 SQL 的易用性和 Spark 的分布式计算能力，通过优化查询计划和内存管理，为大规模数据处理提供了一个强大、灵活且高效的解决方案。

overfit同步小助手 2024-07-24 21:03:46 0 收藏

【大数据技术概述】Hadoop、Spark等大数据技术介绍

大数据指的是无法用传统数据库工具进行采集、管理和处理的海量数据集。大数据技术通过分布式存储和计算，能够高效地处理和分析这些数据，提取有价值的信息。常见的大数据技术包括Hadoop、Spark、Flink、Hive等。Hadoop是一个开源的分布式计算框架，由Apache基金会维护。Hadoop的核心

overfit同步小助手 2024-07-24 20:03:51 0 收藏

spark内存溢出怎么办

Spark内存溢出（OOM，Out Of Memory）通常指的是在执行任务时，Executor或Driver的内存资源不足以容纳运行中的数据和中间结果，从而导致应用程序崩溃。综上所述，解决Spark内存溢出问题需要综合分析应用场景和具体错误日志，结合上述策略调整资源配置和优化代码实现。

overfit同步小助手 2024-07-24 17:03:40 0 收藏

Spark SQL----INSERT TABLE

INSERT语句将新行插入表中或覆盖表中的现有数据。同时使用分区spec和column列表进行插入。同时使用分区spec和column列表进行插入。使用REPLACE WHERE语句插入。使用VALUES子句进行单行插入。使用VALUES子句进行多行插入。为分区列值使用类型化日期文字插入。为分区列值

overfit同步小助手 2024-07-24 04:03:32 0 收藏

摸鱼大数据——Spark基础——Spark环境安装——PySpark搭建

bashrc 也是看名字就知道, 是专门用来给 bash 做初始化的比如用来初始化 bash 的设置, bash 的代码补全, bash 的别名, bash 的颜色. 以此类推也就还会有 shrc, zshrc 这样的文件存在了, 只是 bash 太常用了而已.其实看名字就能了解大概了, profi

overfit同步小助手 2024-07-24 03:03:44 0 收藏

Spark使用map函数出现：Python worker exited unexpectedly (crashed)

本编使用的是python12.exe解释器，解决问题，将python.exe版本降低即可，我这里降低到了python10.exe；

overfit同步小助手 2024-07-24 00:03:49 0 收藏

Spark 中如何去处理数据倾斜

在大数据环境中，使用分布式计算引擎(hive, spark, flink)在进行数据处理时, 在某个(stage)阶段中的某个task运行的数据量/时长的结果远超该stage内task的平均运行的数据量/时长的(N倍)时, 认定为数据倾斜, 其本质是数据分布不均衡, 常常伴随着内存溢出和报错。spa

overfit同步小助手 2024-07-23 23:04:25 0 收藏

spark 操作map中执行self.方法报错

spark不允许在action或transformation中访问SparkContext，如果你的action或transformation中引用了self，那么spark会将整个对象进行序列化，并将其发到工作节点上，来确保每个执行任务的节点都能够访问到该方法以及它所依赖的类实例状态，但是序列化有

overfit同步小助手 2024-07-23 23:02:55 0 收藏

Perl的文本艺术：精通格式化输入输出

Perl中的格式化允许开发者定义数据的显示格式，包括对齐、宽度、精度等。格式化可以通过format语句在代码中直接定义，也可以存储在文件中供多次使用。开发者可以定义更复杂的格式，包括对齐、宽度、数字格式化等。示例代码# 使用自定义格式输出$age = 25;write;

overfit同步小助手 2024-07-23 23:02:38 0 收藏

Spark SQL----Parquet文件

Parquet是一种列式（columnar）格式，许多其他数据处理系统都支持它。Spark SQL支持读取和写入Parquet文件，该文件自动保留原始数据的模式。读取Parquet文件时，出于兼容性原因，所有列都会自动转换为可为null。

overfit同步小助手 2024-07-23 08:03:32 0 收藏