Spark

【Gluten】Spark 的向量化执行引擎框架 Gluten

Gluten 项目主要用于“粘合” Apache Spark 和作为 Backend 的 Native Vectorized Engine。Backend 的选项有很多，目前在 Gluten 项目中已经明确开始支持的有 Velox、Clickhouse 和 Apache Arrow。通过使用Nati

overfit同步小助手 2024-05-31 01:04:05 0 收藏

头歌：Spark GraphX—寻找社交媒体中的“影响力用户”

Spark GraphX中提供了方便开发者的基于谷歌Pregel API的迭代算法，因此可以用Pregel的计算框架来处理Spark上的图数据。GraphX的Pregel API提供了一个简明的函数式算法设计，用它可以在图中方便的迭代计算，如最短路径、关键路径、n度关系等，也可以通过对一些内部数据集

overfit同步小助手 2024-05-31 01:03:54 0 收藏

Spark-RDD / DataFrame

1、：你可以使用方法从一个已有的 Scala 集合（如数组或列表）中创建。：你可以使用 Spark 提供的各种数据源来创建 RDD，比如文本文件、序列文件、JSON 文件、CSV 文件等。：你可以通过对已有的 RDD 进行各种转换操作来创建新的 RDD。

overfit同步小助手 2024-05-30 16:03:29 0 收藏

实验四 Spark Streaming编程初级实践

数据流：数据流通常被视为一个随时间延续而无限增长的动态数据集合，是一组顺序、大量、快速、连续到达的数据序列。通过对流数据处理，可以进行卫星云图监测、股市走向分析、网络攻击判断、传感器实时信号分析。

overfit同步小助手 2024-05-30 05:04:01 0 收藏

Spark中方法运用

spark.read的具体操作，在创建Dataframe之前，为了支持RDD转换成Dataframe及后续的SQL操作，需要导入import.spark.implicits._包启用隐式转换。Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象结构叫做DataFrame的

overfit同步小助手 2024-05-29 23:04:05 0 收藏

spark方法

Spark是一个开源的、大规模的、快速的数据处理引擎，专为大规模数据处理而设计。它提供了一个统一的编程模型来处理批处理、交互式查询、实时流处理和图计算等多种类型的数据处理任务。Scala源自Java，构建在JVM之上，与Java兼容、互通。Scala的优势：1.多范式编程：(1)面向对象编程：每个值

overfit同步小助手 2024-05-29 23:03:56 0 收藏

在进行处理时，reduceByKey()方法将相同键的前两个值传给输入函数，产生一个新的返回值，新产生的返回值与RDD中相同键的下一个值组成两个元素，再传给输入函数，直到最后每个键只有一个对应的值为止。使用flatMap()方法时先进行map（映射）再进行flat（扁平化）操作，数据会先经过跟map

overfit同步小助手 2024-05-29 23:03:51 0 收藏

Spark总结

导论(基于Hadoop的MapReduce的优缺点）MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架MapReduce是一种用于处理大规模数据集的编程模型和计算框架。它将数据处理过程分为两个主要阶段：Map阶段和Reduce阶段。在Map阶段，

overfit同步小助手 2024-05-29 13:03:44 0 收藏

Docker搭建hadoop和spark集群

在宿主机器的浏览器输入0.0.0.0:8080 就可以查看spark集群的运行状况。在宿主机器的浏览器输入0.0.0.0:8080 就可以查看spark集群的运行状况。6.拉取的镜像的环境变量默认配置在/etc/profile中。6.拉取的镜像的环境变量默认配置在/etc/profile中。选择co

overfit同步小助手 2024-05-29 12:03:26 0 收藏

spark上如何终止目前正在运行的任务

命令提交任务，并通过 Spark Web UI 监控任务的执行状态。如果想要终止正在运行的 Spark 任务，可以在 Spark Web UI 中找到该任务，并点击“Kill”按钮来停止该任务的执行。是 Spark 应用程序在 YARN 上的应用 ID，可以在 Spark Web UI 或者命令行中

overfit同步小助手 2024-05-29 07:03:45 0 收藏

Spark编程基础详细总结

第二种方式生成的RDD中保存的是T的值，Seq［String］部分的数据会按照 Seqf（T,Seq［String］）的顺序存放到各个分区中，一个 Seq［Stringl对应存放至一个分区，并为数据提供位置信息，通过preferredLocations0方法可以根据位置信息查看每一个分区的值。（2）

overfit同步小助手 2024-05-29 00:03:57 0 收藏

使用Intellij idea编写Spark应用程序(Scala+Maven)

对Scala代码进行打包编译时，可以采用Maven，也可以采用sbt，相对而言，业界更多使用sbt。这里介绍IntelliJ IDEA和Maven的组合使用方法。IntelliJ IDEA和SBT的组合使用方法，请参考“使用Intellij Idea编写Spark应用程序（Scala+SBT）”。

overfit同步小助手 2024-05-28 22:03:39 0 收藏

Spark AQE 导致的 Driver OOM问题

因为原则上来说，如果没有开启AQE之前，一个SQL执行单元的是属于同一个Job的，开启了AQE之后，因为AQE的原因，一个Job被拆成了了多个Job，但是从逻辑上来说，还是属于同一个SQL处理单元的所以还是得归属到一次执行中。类在内存中存放着一个整个SQL查询链的所有stage以及stage的指标

overfit同步小助手 2024-05-28 18:03:55 0 收藏

python——spark使用

Spark使用Scala语言进行实现，能操作分布式数据集。Spark是在借鉴了MapReduce之上发展而来的，继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷。Spark的适用场景：1. 复杂的批量处理（Batch Data Processing），偏重点在于处理海量数据的能力，

overfit同步小助手 2024-05-28 17:03:46 0 收藏

Spark环境搭建和使用方法

本文讲解如何在Linux系统中安装Spark并配置Spark环境，以及Spark的基本使用方法。

overfit同步小助手 2024-05-28 14:03:37 0 收藏

spark-submit 主要参数详细说明及Standalone集群最佳实践

部署提交应用到 spark 集群，可能会用到 `spark-submit` 工具，鉴于网上的博客质量残差不齐，且有很多完全是无效且错误的配置，没有搞明白诸如`--total-executor-cores` 、`--executor-cores`、`--num-executors`的关系和区别。因此有

overfit同步小助手 2024-05-28 06:04:01 0 收藏

Maven IDEA环境搭建（MapReducer、Spark）

（maven默认的服务器在在国外，后续idea配置maven时，下载会非常慢，需要把服务改到国内的阿里云maven仓库）1、进入idea后先不要创建项目，如果创建项目后先退出项目（这样配置的就是全局设置）1）、下载scala插件（进入插件市场输入scala搜索下载，等待下载完成即可）5、jar包下载

overfit同步小助手 2024-05-28 06:03:53 0 收藏

大数据编程实验三：Spark SQL

（2）配置Spark通过JDBC连接数据库MySQL，编程实现利用DataFrame插入如表5-3所示的两行数据到MySQL中，最后打印出age的最大值和age的总和。（1）在MySQL数据库中新建数据库sparktest，再创建表employee，包含如表5-2所示的两行数据。将下列JSON格式数

overfit同步小助手 2024-05-28 02:03:50 0 收藏

Delta lake with Java--利用spark sql操作数据1

代码主要实现建立一个表名为YellowTaxi，插入5条数据，然后查询YellowTaxi这5条数据，再建立一个表YellowTaxiPartitioned，YellowTaxiPartitioned是分区表。具体文字内容如下，从结果可以看出分区表的查询效率要比不分区表要好，后面建表还是要用分区表。

overfit同步小助手 2024-05-27 20:03:42 0 收藏

Spark SQL的使用

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模型

overfit同步小助手 2024-05-27 12:03:23 0 收藏