Spark - overfit.cn

Spark on YARN 部署搭建详细图文教程

overfit同步小助手 2023-11-03 04:03:48 0 收藏

处理大规模数据时的 Spark 踩坑经验

以上是我在使用 Spark 处理大规模数据时遇到的一些问题和解决方案。在处理大规模数据时，应该注意内存溢出、网络问题、数据倾斜和 GC 停顿等问题，并根据实际情况采取相应的解决方法。

overfit同步小助手 2023-11-02 12:03:44 0 收藏

大数据领域如何理解 Merge、Combine和Aggregate

例如，在MapReduce、Spark等大数据框架中，Shuffle过程中的Combiner可以将同一个节点上的中间结果组合起来，以减少数据在网络中的传输。在大数据领域，这通常涉及到将不同来源或分布式存储的数据整合在一起。例如，在SQL查询中的GROUP BY子句，以及Spark、Hadoop等大数

overfit同步小助手 2023-11-02 06:03:45 0 收藏

头歌平台，大数据实验五，spark安装

spark环境安装第一关mkdir /app //创建 app 目录cd /opttar -zxvf scala-2.12.7.tgz -C /app vi /etc/profile #set scalaSCALA_HOME=/app/scala-2.12.7export PAT

overfit同步小助手 2023-11-01 04:03:29 0 收藏

spark 与 mapreduce 对比

多进程模型的好处是便于细粒度控制每个任务占用的资源，但每次任务的启动都会消耗一定的启动时间，即MapReduce 的Map Task和Reduce Task是进程级别的，都是 jvm 进程，每次启动都需要重新申请资源，消耗了不必要的时间。所以对于下次再次使用此 RDD时，不用再次计算，而是直接从缓存

overfit同步小助手 2023-10-31 17:03:47 0 收藏

Hive引擎MR、Tez、Spark

不更换引擎hive默认的就是MR。：是一种编程模型，用于大规模数据集（大于1TB）的并行运算。：Hive既作为存储元数据又负责SQL的解析优化，语法是HQL语法，执行引擎变成了Spark，Spark负责采用RDD执行。

overfit同步小助手 2023-10-30 13:03:26 0 收藏

Scala安装配置

Scala(斯嘎拉)这个名字来源于"Scalable Language(可伸缩的语言)"，它是一门基于JVM的多范式编程语言，通俗的说：Scala是一种运行在JVM上的函数式的面向对象语言。之所以这样命名，是因为它的设计目标是：随着用户的需求一起成长。Scala可被广泛应用于各种编程任务, 从编写小

overfit同步小助手 2023-10-29 21:03:32 0 收藏

partitionBy()的解释

partitionBy() 是 Spark RDD 的一个方法，用于对 RDD 进行重新分区。其主要作用是将 RDD 中的数据按照指定的分区方式进行重新分区，并返回一个新的分区后的 RDD。在 Spark 中，默认情况下使用哈希分区（Hash Partitioning）对 RDD 进行分区。但有时候

overfit同步小助手 2023-10-29 09:03:46 0 收藏

Spark Streaming 整合 Kafka

同时从输出中也可以看到在程序中指定的 `groupId` 和程序自动分配的 `clientId`。在示例代码中 `kafkaParams` 封装了 Kafka 消费者的属性，这些属性和 Spark Streaming 无关，是 Kafka 原生 API 中就有定义的。在示例代码中，我们实际上并没有指

overfit同步小助手 2023-10-29 08:03:25 0 收藏

spark获取hadoop服务token

spark提交作业不含hbase的相关逻辑为什么会去获取hbase服务的token

overfit同步小助手 2023-10-27 20:03:35 0 收藏

Flink实时计算框架简介

flink实时计算机框架简介

overfit同步小助手 2023-10-26 09:03:44 0 收藏

Spark---数据输出

collect算子：将RDD各个分区内的数据，统一收集到Driver中，形成一个List对象。take算子：取RDD的前N个元素，组合成list返回给你。count算子：计算RDD有多少条数据，返回值是一个数字。reduce算子：对RDD数据集按照传入的逻辑进行聚合。

overfit同步小助手 2023-10-26 01:03:26 0 收藏

Spark简介

部署Spark集群大体上分为两种模式：单机模式与集群模式大多数分布式框架都支持单机模式，方便开发者调试框架的运行环境。

overfit同步小助手 2023-10-25 11:03:20 0 收藏

大数据面试题：Spark和Flink的区别

Flink 根据用户提交的代码生成 StreamGraph，经过优化生成 JobGraph，然后提交给JobManager 进行处理， JobManager 会根据 JobGraph 生成 ExecutionGraph，ExecutionGraph 是 Flink 调度最核心的数据结构，JobMan

overfit同步小助手 2023-10-23 18:03:17 0 收藏

Spark3 新特性之AQE

overfit同步小助手 2023-10-23 13:03:25 0 收藏

spark读取hive表字段，区分大小写问题

spark任务读取hive表，查询字段为小写，但Hive表字段为大写，无法读取数据。

overfit同步小助手 2023-10-23 05:03:52 0 收藏

hudi搭建【大数据比赛长期更新】

hudi搭建题目分析本任务需要使用root用户完成相关配置，具体要求如下：1、从宿主机/opt目录下将maven相关安装包复制到容器Master中的/opt/software（若路径不存在，则需新建）中，将maven相关安装包解压到/opt/module/目录下（若路径不存在，则需新建）并配置ma

overfit同步小助手 2023-10-23 00:03:52 0 收藏

Python黑马程序员（Spark实战）笔记

注意：字符串返回的是['a','b','c','d','e','f','g'] 字典返回的是['key1','key2']#func(T)-->U:告知按照rdd中的哪一个数据进行排序，比如lambda x:x[1]表示按照rdd中的第二列元素进行排序。百度网盘：链接：https://pan.b

overfit同步小助手 2023-10-19 22:03:49 0 收藏

2023_Spark_实验十二：Spark高级算子使用

Spark高级算子，Scala开发，idea

overfit同步小助手 2023-10-19 11:03:33 0 收藏

spark 集成 ClickHouse 和 MySQL (读和写操作)（笔记）

【代码】spark 集成 ClickHouse 和 MySQL (读和写操作)（笔记）

overfit同步小助手 2023-10-18 23:03:29 0 收藏