Spark - overfit.cn

hive/spark数据倾斜解决方案

数据倾斜主要表现在，mapreduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多)，这条Key所在的reduce节点所处理的数据量比其他节点就大很多，从而导致

overfit同步小助手 2023-09-27 14:03:47 0 收藏

大数据之使用Spark全量抽取MySQL的数据到Hive数据库

使用了spark对MySQL的数据进行操作并保存到了hive数据库，原理大同小异，spark提供了许多api供我们使用，非常的方便和灵活。本题来源于全国职业技能大赛之大数据技术赛项赛题-离线数据处理-数据抽取题目：编写Scala代码，使用Spark将MySQL的shtd_industry库中表Env

overfit同步小助手 2023-09-27 09:03:40 0 收藏

2023_Spark_实验七：Scala函数式编程部分演示

Scala函数式编程，函数是头等公民，函数的定义，匿名函数，高阶函数，闭包，柯里化的使用。

overfit同步小助手 2023-09-27 01:03:45 0 收藏

PySpark实战指南：大数据处理与分析的终极指南【上进小菜猪大数据】

上进小菜猪，沈工大软件工程专业，爱好敲代码，持续输出干货。大数据处理与分析是当今信息时代的核心任务之一。本文将介绍如何使用PySpark（Python的Spark API）进行大数据处理和分析的实战技术。我们将探讨PySpark的基本概念、数据准备、数据处理和分析的关键步骤，并提供示例代码和技术深度

overfit同步小助手 2023-09-24 14:03:26 0 收藏

Intellij IDEA编写Spark应用程序的环境配置和操作步骤

在win系统中使用IDEA开发spark应用程序，并将其打成jar包上传到虚拟机中的三个Ubuntu系统，然后在分布式环境中运行

overfit同步小助手 2023-09-22 22:05:03 0 收藏

spark导入doris的几种方式

本文主要介绍通过spark导入doris的3种方式。

overfit同步小助手 2023-09-22 10:03:39 0 收藏

Spark常见报错

shuffle read是container请求external shuffle服务获取数据过程，external shuffle是NodeManager进程中的一个服务，默认端口是7337，或者通过spark.shuffle.service.port指定。解决方案：针对原因(1)，调大spark.

overfit同步小助手 2023-09-20 04:03:45 0 收藏

2023_Spark_实验四：SCALA基础

Scala基础，通过Scala交互命名学习Scala基础语法，学习数据常用类型，变量声明，Scala函数与方法，条件表达式，循环，函数参数类型，数组，元组，映射等基础知识。

overfit同步小助手 2023-09-19 16:03:48 0 收藏

Spark第三课

sortby方法需要传3个参数参数1 排序规则参数2 升序还是降序(false) 默认升序(true)参数3 排序的分区数量(说明方法底层是靠shuffle实现,所以才有改变分区的能力)如何区分是键值对方法还是单值方法呢?通过参数来判断, 如果参数是一个值,就是单值,如果是2个,就是键值对直接对v

overfit同步小助手 2023-09-19 13:03:54 0 收藏

2023_Spark_实验五：Scala面向对象部分演示（一）（IDEA开发）

基于Idea，Scala面向对象部分演示（一），讲解面向对象中的三大特征：封装、继承、多态。类的定义。

overfit同步小助手 2023-09-19 08:04:03 0 收藏

SparkLauncher提交spark 正确的退出方式以及状态获取

SparkLauncher 提交 Spark任务，使用CountDownLatch获取任务状态，出现状态获取不准确问题，spark任务是失败的，但是返回成功。

overfit同步小助手 2023-09-19 06:03:24 0 收藏

Sparkthrift Server 启动命令调优及问题报错解决

文章目录1、sparkthrift Server 启动命令2、实际生产过程中的报错解决2.1、Kryo serialization failed: Buffer overflow. Available: 0, required: 2428400. To avoid this, increase sp

overfit同步小助手 2023-09-19 00:05:06 0 收藏

Spark最后一课

如果是Client模式,则Driver就是本机了,Executor 会直接交互本机,远程访问提交,不能停止,同时所有Executor会交互本机,而本机资源不足,会导致系统和网络崩溃.按照等级进行尝试,从高等级到低等级,降级机制.如何避免多次访问通一个节点?9.Driver调用资源,找到空闲的NM,进

overfit同步小助手 2023-09-18 06:03:35 0 收藏

2023_Spark_实验六：Scala面向对象部分演示（二）（IDEA开发）

Idea, Scala面向对象部分演示（二）, apply, 继承、重写，匿名函数，抽象函数，特质，包的使用，文件访问等。

overfit同步小助手 2023-09-17 12:03:56 0 收藏

spark sql 数据倾斜--join 同时开窗去重的问题优化

spark数据倾斜企业经验

overfit同步小助手 2023-09-17 09:03:34 0 收藏

【Python】PySpark

PySpark

overfit同步小助手 2023-09-17 09:03:30 0 收藏

大数据课程K17——Spark的协同过滤法

用特定的计算方法扫描和指定目标相同的已有用户，根据给定的相似度对用户进行相似度计算，选择最高得分的用户并根据其已有的信息作为推荐结果从而反馈给用户。在已有信息中，用户3已经选择了物品1和物品5，用户2比较偏向于选择物品2和物品4，而用户1选择了物品1、物品4以及物品5。那么完全有理由相信用户1和用户

overfit同步小助手 2023-09-17 05:04:00 0 收藏

SparkSQL性能优化终极篇

随着Spark版本的不断迭代，SparkSQL底层使用了各种优化技术，无论方便性、性能都已经超越了RDD。因此SparkSQL已经是最常用的Spark开发方式，因此，这里把常用的SparkSQL性能优化技术进行汇总。

overfit同步小助手 2023-09-14 13:04:43 0 收藏

16 | Spark SQL 的 UDF（用户自定义函数）

UDF允许您定义自己的函数，以便在DataFrame或SQL查询中使用。在本教程中，我们将演示如何创建一个UDF，该UDF将字符串的长度作为输入，并返回该字符串的长度作为输出。UDF允许您定义自己的函数，并将其应用于Spark DataFrame或Dataset。：在DataFrame操作或SQL查

overfit同步小助手 2023-09-11 18:03:41 0 收藏

如何使用Spark/Flink等分布式计算引擎做网络入侵检测

overfit同步小助手 2023-09-11 01:04:14 0 收藏