大数据 Spark - overfit.cn

Pyspark读写csv,txt,json,xlsx,xml,avro等文件

Spark读写txt文件 Spark读写csv文件 Spark读写parquet文件 Spark读写json文件 Spark读写excel文件 Spark读写xml文件 Spark读写orc文件 Spark读写avro文件 Spark读写mysql中的表

overfit同步小助手 2023-10-09 04:03:55 0 收藏

2023_Spark_实验九：Scala函数式编程部分演示

Scala，基于idea开发wordcout。

overfit同步小助手 2023-10-08 20:03:40 0 收藏

Spark SQL

Spark SQL属于Spark计算框架的一部分，是专门负责结构化数据的处理计算框架，Spark SQL提供了两种数据抽象：DataFrame、Dataset,都是基于RDD之上的一种高级数据抽象，在RDD基础之上增加了一个schema表结构。DataFrame是以前旧版本的数据抽象（untyped

overfit同步小助手 2023-10-08 06:03:42 0 收藏

【数据仓库设计基础（四）】数据仓库实施步骤

数据仓库实施步骤

overfit同步小助手 2023-10-06 21:03:38 0 收藏

Spark集成ClickHouse(笔记)

在大数据处理和分析领域，Spark 是一个非常强大且广泛使用的开源分布式计算框架。而 ClickHouse 则是一个高性能、可扩展的列式数据库，特别适合用于实时分析和查询大规模数据。将 Spark 与 ClickHouse 集成可以充分发挥它们各自的优势，使得数据处理和分析更加高效和灵活。

overfit同步小助手 2023-10-04 21:04:01 0 收藏

Apache Spark 练习五：使用Spark进行YouTube视频网站指标分析

本章所分析的数据来自于Simon Fraser大学公开的YouTube视频网站的视频数据。数据包含两张表。第一张为视频表，记录了研究人员爬取的视频的元数据信息，具体包括以下字段：

overfit同步小助手 2023-10-04 08:03:44 0 收藏

2023_Spark_实验八：Scala高级特性实验

Scala的高级特性，泛型类，泛型函数，隐式转换函数，隐私参数，隐式类

overfit同步小助手 2023-10-03 08:03:50 0 收藏

【spark】序列化和反序列化，transient关键字的使用

序列化就是指将一个对象转化为二进制的byte流（注意，不是bit流），然后以文件的方式进行保存或通过网络传输，等待被反序列化读取出来。1）一旦变量被transient修饰，变量将不再是对象持久化的一部分，该变量内容在序列化后无法获得访问。如果在driver端不使用instance，那么@transi

overfit同步小助手 2023-10-02 23:04:01 0 收藏

【Hive/Spark】常见参数配置

（用于spark3中字段类型不匹配（例如datetime无法转换成date），消除sql中时间歧义，将Spark .sql. LEGACY . timeparserpolicy设置为LEGACY来恢复Spark 3.0之前的状态来转化）（4）set spark.sql.finalStage.adap

overfit同步小助手 2023-10-01 23:03:50 0 收藏

Scala安装步骤详解

Scala安装步骤详解：1.在网页上运行Scala 2.在Windows系统上安装scala 3.在Linux和macOS系统上安装Scala 4.在软件中安装scala插件 1.下载与安装IDEA 2.scala插件的安装与使用 3.安装完成后测试scala插件

overfit同步小助手 2023-10-01 17:03:35 0 收藏

【笔记】Spark3 AQE(Adaptive Query Execution)

不同于传统以整个执行计划为粒度进行调度的方式，AQE 会把执行计划基于 shuffle 划分成若干个子计划，每个子计划用一个新的叶子节点包裹起来，从而使得执行计划的调度粒度细化到 stage 级别 (stage 也是基于 shuffle 划分)。我们知道一般的 SQL 执行流程是，逻辑执行计划 ->

overfit同步小助手 2023-09-27 22:04:09 0 收藏

hive/spark数据倾斜解决方案

数据倾斜主要表现在，mapreduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多)，这条Key所在的reduce节点所处理的数据量比其他节点就大很多，从而导致

overfit同步小助手 2023-09-27 14:03:47 0 收藏

大数据之使用Spark全量抽取MySQL的数据到Hive数据库

使用了spark对MySQL的数据进行操作并保存到了hive数据库，原理大同小异，spark提供了许多api供我们使用，非常的方便和灵活。本题来源于全国职业技能大赛之大数据技术赛项赛题-离线数据处理-数据抽取题目：编写Scala代码，使用Spark将MySQL的shtd_industry库中表Env

overfit同步小助手 2023-09-27 09:03:40 0 收藏

2023_Spark_实验七：Scala函数式编程部分演示

Scala函数式编程，函数是头等公民，函数的定义，匿名函数，高阶函数，闭包，柯里化的使用。

overfit同步小助手 2023-09-27 01:03:45 0 收藏

PySpark实战指南：大数据处理与分析的终极指南【上进小菜猪大数据】

上进小菜猪，沈工大软件工程专业，爱好敲代码，持续输出干货。大数据处理与分析是当今信息时代的核心任务之一。本文将介绍如何使用PySpark（Python的Spark API）进行大数据处理和分析的实战技术。我们将探讨PySpark的基本概念、数据准备、数据处理和分析的关键步骤，并提供示例代码和技术深度

overfit同步小助手 2023-09-24 14:03:26 0 收藏

spark导入doris的几种方式

本文主要介绍通过spark导入doris的3种方式。

overfit同步小助手 2023-09-22 10:03:39 0 收藏

Spark常见报错

shuffle read是container请求external shuffle服务获取数据过程，external shuffle是NodeManager进程中的一个服务，默认端口是7337，或者通过spark.shuffle.service.port指定。解决方案：针对原因(1)，调大spark.

overfit同步小助手 2023-09-20 04:03:45 0 收藏

2023_Spark_实验四：SCALA基础

Scala基础，通过Scala交互命名学习Scala基础语法，学习数据常用类型，变量声明，Scala函数与方法，条件表达式，循环，函数参数类型，数组，元组，映射等基础知识。

overfit同步小助手 2023-09-19 16:03:48 0 收藏

Spark第三课

sortby方法需要传3个参数参数1 排序规则参数2 升序还是降序(false) 默认升序(true)参数3 排序的分区数量(说明方法底层是靠shuffle实现,所以才有改变分区的能力)如何区分是键值对方法还是单值方法呢?通过参数来判断, 如果参数是一个值,就是单值,如果是2个,就是键值对直接对v

overfit同步小助手 2023-09-19 13:03:54 0 收藏

2023_Spark_实验五：Scala面向对象部分演示（一）（IDEA开发）

基于Idea，Scala面向对象部分演示（一），讲解面向对象中的三大特征：封装、继承、多态。类的定义。

overfit同步小助手 2023-09-19 08:04:03 0 收藏