Spark - overfit.cn

spark 和 flink 的对比

的数据模型是(Resilient Distributed Dattsets)，这个内存数据结构使得spark可以通过固定内存做大批量计算。初期的 Spark Streaming 是通过(micro-batches)，即，所以严格意义上，还不能算作流式处理。

overfit同步小助手 2023-10-18 10:03:43 0 收藏

SparkSQL与Hive整合(Spark On Hive）

hive metastore元数据服务用来存储元数据，所谓元数据，即hive中库、表、字段、字段所属表、表所属库、表的数据所在目录及数据分区信息。元数据默认存储在hive自带的Derby数据库。metastore服务独立出来之后，1个或多个客户端在配置文件中添加metastore的地址，就可以同时连

overfit同步小助手 2023-10-17 15:03:42 0 收藏

ERROR SparkContext: Error initializing SparkContext. （）

在配置yarn的配置文件中设置的内存过小，不能够支持spark程序的运行所以出现了报错。在将spark程序提交到yarn中运行的时出现以下报错。

overfit同步小助手 2023-10-17 11:03:32 0 收藏

大数据课程K2——Spark的RDD弹性分布式数据集

诸如普通的集合类型，如传统的Array：（1,2,3,4,5）是一个整体，但转换成RDD后，我们可以对数据进行Partition（分区）处理，这样做的目的就是为了分布式。创建RDD的方式有多种，比如案例一中是基于一个基本的集合类型（Array）转换而来，像parallelize这样的方法还有很多，之

overfit同步小助手 2023-10-17 06:03:45 0 收藏

5 | Java Spark WordCount打成Jar 包测试

使用 Maven 或 Gradle 等构建工具，将您的项目编译并打包成一个包含依赖项的 JAR 文件。这个 JAR 文件将包含您的 WordCount 代码以及 Spark 依赖项。运行此命令将在 Spark 集群上启动 WordCount 作业，它将读取指定的输入文件，执行 WordCount 操

overfit同步小助手 2023-10-16 02:03:39 0 收藏

Spark工作原理

overfit同步小助手 2023-10-15 05:03:27 0 收藏

配置Hive使用Spark执行引擎

在Hive中，可以通过配置来指定使用不同的执行引擎。Hive执行引擎包括：默认MR、tez、spark。

overfit同步小助手 2023-10-14 20:03:39 0 收藏

2023_Spark_实验十：RDD基础算子操作

RDD基础算子操作，1. 生成RDD。2. 求交并集，去重结果。 3. cogroup,groupByKey。 4. reduceByKey。

overfit同步小助手 2023-10-11 15:03:29 0 收藏

Hive中数组array的相关应用

array_intersect(array1, array2)：返回一个包含所有同时在数组array1和数组array2中的元素的数组（数组array1和数组array2的交集元素)。split(reverse(concat_ws(delimiter,array_sort(array))),deli

overfit同步小助手 2023-10-09 10:03:54 0 收藏

Pyspark读写csv,txt,json,xlsx,xml,avro等文件

Spark读写txt文件 Spark读写csv文件 Spark读写parquet文件 Spark读写json文件 Spark读写excel文件 Spark读写xml文件 Spark读写orc文件 Spark读写avro文件 Spark读写mysql中的表

overfit同步小助手 2023-10-09 04:03:55 0 收藏

2023_Spark_实验九：Scala函数式编程部分演示

Scala，基于idea开发wordcout。

overfit同步小助手 2023-10-08 20:03:40 0 收藏

Spark SQL

Spark SQL属于Spark计算框架的一部分，是专门负责结构化数据的处理计算框架，Spark SQL提供了两种数据抽象：DataFrame、Dataset,都是基于RDD之上的一种高级数据抽象，在RDD基础之上增加了一个schema表结构。DataFrame是以前旧版本的数据抽象（untyped

overfit同步小助手 2023-10-08 06:03:42 0 收藏

【数据仓库设计基础（四）】数据仓库实施步骤

数据仓库实施步骤

overfit同步小助手 2023-10-06 21:03:38 0 收藏

Spark集成ClickHouse(笔记)

在大数据处理和分析领域，Spark 是一个非常强大且广泛使用的开源分布式计算框架。而 ClickHouse 则是一个高性能、可扩展的列式数据库，特别适合用于实时分析和查询大规模数据。将 Spark 与 ClickHouse 集成可以充分发挥它们各自的优势，使得数据处理和分析更加高效和灵活。

overfit同步小助手 2023-10-04 21:04:01 0 收藏

Apache Spark 练习五：使用Spark进行YouTube视频网站指标分析

本章所分析的数据来自于Simon Fraser大学公开的YouTube视频网站的视频数据。数据包含两张表。第一张为视频表，记录了研究人员爬取的视频的元数据信息，具体包括以下字段：

overfit同步小助手 2023-10-04 08:03:44 0 收藏

2023_Spark_实验八：Scala高级特性实验

Scala的高级特性，泛型类，泛型函数，隐式转换函数，隐私参数，隐式类

overfit同步小助手 2023-10-03 08:03:50 0 收藏

【spark】序列化和反序列化，transient关键字的使用

序列化就是指将一个对象转化为二进制的byte流（注意，不是bit流），然后以文件的方式进行保存或通过网络传输，等待被反序列化读取出来。1）一旦变量被transient修饰，变量将不再是对象持久化的一部分，该变量内容在序列化后无法获得访问。如果在driver端不使用instance，那么@transi

overfit同步小助手 2023-10-02 23:04:01 0 收藏

【Hive/Spark】常见参数配置

（用于spark3中字段类型不匹配（例如datetime无法转换成date），消除sql中时间歧义，将Spark .sql. LEGACY . timeparserpolicy设置为LEGACY来恢复Spark 3.0之前的状态来转化）（4）set spark.sql.finalStage.adap

overfit同步小助手 2023-10-01 23:03:50 0 收藏

Scala安装步骤详解

Scala安装步骤详解：1.在网页上运行Scala 2.在Windows系统上安装scala 3.在Linux和macOS系统上安装Scala 4.在软件中安装scala插件 1.下载与安装IDEA 2.scala插件的安装与使用 3.安装完成后测试scala插件

overfit同步小助手 2023-10-01 17:03:35 0 收藏

【笔记】Spark3 AQE(Adaptive Query Execution)

不同于传统以整个执行计划为粒度进行调度的方式，AQE 会把执行计划基于 shuffle 划分成若干个子计划，每个子计划用一个新的叶子节点包裹起来，从而使得执行计划的调度粒度细化到 stage 级别 (stage 也是基于 shuffle 划分)。我们知道一般的 SQL 执行流程是，逻辑执行计划 ->

overfit同步小助手 2023-09-27 22:04:09 0 收藏