spark的相关知识点
里面有SparkCore、SparkSql、SparkStreaming、SparkMilLb的知识点总结
大数据-Hadoop-基础篇-第十章-Spark
Spark是一种通用的大数据计算框架,是基于RDD(弹性分布式数据集)的一种计算模型。那到底是什么呢?可能很多人还不是太理解,通俗讲就是可以分布式处理大量集数据的,将大量集数据先拆分,分别进行计算,然后再将计算后的结果进行合并。SparkSQL。
【Spark生态】--Spark环境搭建
Spark环境安装部署,Local模式和PySpark库的安装
大数据学习之Spark基础
后一个RDD中的分区数据,除KV函数以外,对应的是前一个RDD中的分区数据所进行逻辑处理后的结果。当重复触发相同的执行的时候,对于同一个DAG有向无环图而言,会直接从shuffle之后的RDD开始执行(省略从前一个RDD写数据到磁盘中的过程),可以直接从磁盘读取数据。1)窄依赖 前一个RDD中的某一
Spark Delta Lake
【代码】Spark Delta Lake。
数据湖表格式 Hudi/Iceberg/DeltaLake/Paimon TPCDS 性能对比(Spark 引擎)
当前,业界流行的集中数据湖表格式 Hudi/Iceberg/DeltaLake,和最近出现并且在国内比较火的 Paimon。我们现在看到的很多是针对流处理场景的读写性能测试,那么本篇文章我们将回归到大数据最基础的场景,对海量数据的批处理查询。本文主要介绍通过 TPC-DS 3TB 的数据的99个SQ
【大数据】什么是数据湖?一文揭示数据湖的本质
本文探讨了数据湖和数据仓库在企业数据管理中的角色与差异。数据湖作为容纳结构化与非结构化数据的新兴模式,强调灵活性和探索性分析能力,适应了现代企业对多样数据处理和快速决策的需求。相比之下,传统的数据仓库以其稳定的数据模型和标准化报表服务,仍然在特定场景中发挥重要作用。随着数据量和类型的不断增加,以及企
Spark概念及运行模式
目的:点击yarn(8088)上spark任务的history按钮,进入的是spark历史服务器(18080),而不再是yarn历史服务器(19888)。Spark弊端:过于依赖内存,且因为数据倾斜,当内存资源较少时,容易出错。集群模式下,spark会先向HDFS上传spark库,然后yarn会下载
如何学习Spark:糙快猛的大数据之旅
回顾我从零开始学习大数据的journey,我深深体会到"糙快猛"学习方法的重要性。在Spark这样复杂而强大的技术面前,我们不应该被完美主义所束缚。相反,我们应该勇于尝试,在实践中学习,在错误中成长。记住,当我们面对看似不可能的挑战时,要保持那份"可把我牛逼坏了,让我叉会腰儿"的自信和决心。每一次你
pyspark TypeError: code() argument 13 must be str, not int
pyspark3.0.0执行pyspark demo代码 报错。
Spark基于DPU的Native引擎算子卸载方案
随着SSD和万兆网卡普及以及I/O技术的提升,Spark用户的数据负载计算能力逐渐受到CPU性能瓶颈的约束。由于Spark本身基于JVM的Task计算模型的CPU指令优化,要远远逊色于其他的Native语言(C++等),再加上开源社区的Native引擎已经发展得比较成熟,具备优秀的量化执行能力,这就
Spark SQL函数
开窗函数row_number()是Spark SQL中常用的一个窗口函数,使用该函数可以在查询结果中对每个分组的数据,按照其排列的顺序添加一列行号(从1开始),根据行号可以方便地对每一组数据取前N行(分组取TopN)。 上述代码中,df指的是DataFrame对象,使用s
基于Spark天气数据分析系统的设计与实现
在大数据时代,天气数据作为一种重要的公共资源,不仅影响人们的日常生活,还对农业、交通、能源等多个领域产生深远影响。通过对天气数据的全面处理和展示,可以帮助人们更好地理解和预测天气变化,从而做出更加科学的决策。我们设计并实现了一个基于Spark的天气数据分析系统,该系统通过数据采集、清洗、分析和可视化
【Spark On Hive】—— 基于电商数据分析的项目实战
【Spark On Hive】—— 基于电商数据分析的项目实战
Spark RDD实现分组求TopN
这会得到一个新的RDD,其中的元素是二元组,其中第一个元素是姓名,第二个元素是一个迭代器,包含与该姓名关联的所有成绩的二元组。该Scala代码使用了Apache Spark的RDD(弹性分布式数据集)API来处理一个文本文件,该文件包含按逗号分隔的姓名和成绩数据。因为每一行为一条数据,所以先构成(姓
Spark 的Shuffle原理及调优
在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce,而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中,往往伴随着大量的磁盘和网络I/O。所以,Hadoop中的shuffle性能的高
深入解析 Spark SQL 中的 REPARTITION 操作
深入解析 Spark SQL 中的 REPARTITION 操作
Spark, Storm, Flink简介
本文主要介绍Spark, Storm, Flink的区别。
Spark SQL的基本使用和操作
Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据,是指具有Schema信息的数据,例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同,Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spar
大数据面试题之Spark(5)
大数据面试题之Spark(5)