Spark - overfit.cn

【Pyspark-驯化】spark中高效保存数据到hive表中：stored as PARQUET

在PySpark中，数据可以以不同的文件格式存储，其中最常见的是TEXTFILE和PARQUET。这两种格式在存储效率、查询性能以及使用场景上有着显著的差异。STORED AS TEXTFILE：这是一种简单的存储方式，将数据以文本形式存储，通常用于非结构化数据。它不需要特定的序列化机制，易于阅读但

overfit同步小助手 2024-07-23 06:03:58 0 收藏

基于Spark的国漫推荐系统的设计与实现：爬虫、数据分析与可视化

在国漫产业中，如何从海量的国漫作品中提取有价值的信息，为用户推荐符合其喜好的作品，成为了亟待解决的问题。因此，本文提出了基于Spark的国漫推荐系统，利用Spark强大的数据处理能力，结合大数据爬虫、数据分析与可视化技术，实现国漫的精准推荐。因此，本文旨在探讨基于Spark的国漫推荐系统的设计与实现

overfit同步小助手 2024-07-23 05:03:49 0 收藏

Spark SQL----GROUP BY子句

GROUP BY子句用于根据一组指定的分组表达式对行进行分组，并根据一个或多个指定的聚合函数计算行组上的聚合。Spark还支持高级聚合，通过GROUPING SETS、CUBE、ROLLUP子句对同一输入记录集进行多个聚合。分组表达式和高级聚合可以混合在GROUP BY子句中，也可以嵌套在GROUP

overfit同步小助手 2024-07-23 03:03:41 0 收藏

Spark--Spark编程基础和编程进阶知识总结(第三章和第四章)

在RDD的执行过程中，真正的计算发生在行动操作中，在前面的所有转换，spark只是记录下转换操作应用的一些基础数据集和RDD生成轨迹，不会触发计算。一样的操作，为每一条输入返回一个迭代器（可迭代的数据类型），然后将所得到的不同级别的迭代器中的元素全部当成同级别的元素，返回一个元素级别全部相同的。RD

overfit同步小助手 2024-07-23 00:03:45 0 收藏

spark的相关知识点

里面有SparkCore、SparkSql、SparkStreaming、SparkMilLb的知识点总结

overfit同步小助手 2024-07-22 12:03:19 0 收藏

大数据-Hadoop-基础篇-第十章-Spark

Spark是一种通用的大数据计算框架,是基于RDD(弹性分布式数据集)的一种计算模型。那到底是什么呢？可能很多人还不是太理解，通俗讲就是可以分布式处理大量集数据的，将大量集数据先拆分，分别进行计算，然后再将计算后的结果进行合并。SparkSQL。

overfit同步小助手 2024-07-22 05:03:37 0 收藏

【Spark生态】--Spark环境搭建

Spark环境安装部署，Local模式和PySpark库的安装

overfit同步小助手 2024-07-22 00:03:23 0 收藏

大数据学习之Spark基础

后一个RDD中的分区数据，除KV函数以外，对应的是前一个RDD中的分区数据所进行逻辑处理后的结果。当重复触发相同的执行的时候，对于同一个DAG有向无环图而言，会直接从shuffle之后的RDD开始执行（省略从前一个RDD写数据到磁盘中的过程），可以直接从磁盘读取数据。1）窄依赖前一个RDD中的某一

overfit同步小助手 2024-07-21 23:03:33 0 收藏

Spark Delta Lake

【代码】Spark Delta Lake。

overfit同步小助手 2024-07-21 23:03:18 0 收藏

数据湖表格式 Hudi/Iceberg/DeltaLake/Paimon TPCDS 性能对比（Spark 引擎）

当前，业界流行的集中数据湖表格式 Hudi/Iceberg/DeltaLake，和最近出现并且在国内比较火的 Paimon。我们现在看到的很多是针对流处理场景的读写性能测试，那么本篇文章我们将回归到大数据最基础的场景，对海量数据的批处理查询。本文主要介绍通过 TPC-DS 3TB 的数据的99个SQ

overfit同步小助手 2024-07-21 22:03:19 0 收藏

【大数据】什么是数据湖？一文揭示数据湖的本质

本文探讨了数据湖和数据仓库在企业数据管理中的角色与差异。数据湖作为容纳结构化与非结构化数据的新兴模式，强调灵活性和探索性分析能力，适应了现代企业对多样数据处理和快速决策的需求。相比之下，传统的数据仓库以其稳定的数据模型和标准化报表服务，仍然在特定场景中发挥重要作用。随着数据量和类型的不断增加，以及企

overfit同步小助手 2024-07-21 20:03:36 0 收藏

Spark概念及运行模式

目的：点击yarn（8088）上spark任务的history按钮，进入的是spark历史服务器（18080），而不再是yarn历史服务器（19888）。Spark弊端：过于依赖内存，且因为数据倾斜，当内存资源较少时，容易出错。集群模式下，spark会先向HDFS上传spark库，然后yarn会下载

overfit同步小助手 2024-07-21 15:03:43 0 收藏

如何学习Spark：糙快猛的大数据之旅

回顾我从零开始学习大数据的journey，我深深体会到"糙快猛"学习方法的重要性。在Spark这样复杂而强大的技术面前，我们不应该被完美主义所束缚。相反，我们应该勇于尝试，在实践中学习，在错误中成长。记住，当我们面对看似不可能的挑战时，要保持那份"可把我牛逼坏了，让我叉会腰儿"的自信和决心。每一次你

overfit同步小助手 2024-07-21 08:03:18 0 收藏

pyspark TypeError: code() argument 13 must be str, not int

pyspark3.0.0执行pyspark demo代码报错。

overfit同步小助手 2024-07-21 07:04:09 0 收藏

Spark基于DPU的Native引擎算子卸载方案

随着SSD和万兆网卡普及以及I/O技术的提升，Spark用户的数据负载计算能力逐渐受到CPU性能瓶颈的约束。由于Spark本身基于JVM的Task计算模型的CPU指令优化，要远远逊色于其他的Native语言（C++等），再加上开源社区的Native引擎已经发展得比较成熟，具备优秀的量化执行能力，这就

overfit同步小助手 2024-07-20 06:03:31 0 收藏

Spark SQL函数

开窗函数row_number()是Spark SQL中常用的一个窗口函数，使用该函数可以在查询结果中对每个分组的数据，按照其排列的顺序添加一列行号（从1开始），根据行号可以方便地对每一组数据取前N行（分组取TopN）。上述代码中，df指的是DataFrame对象，使用s

overfit同步小助手 2024-07-20 05:03:41 0 收藏

基于Spark天气数据分析系统的设计与实现

在大数据时代，天气数据作为一种重要的公共资源，不仅影响人们的日常生活，还对农业、交通、能源等多个领域产生深远影响。通过对天气数据的全面处理和展示，可以帮助人们更好地理解和预测天气变化，从而做出更加科学的决策。我们设计并实现了一个基于Spark的天气数据分析系统，该系统通过数据采集、清洗、分析和可视化

overfit同步小助手 2024-07-19 23:03:31 0 收藏

【Spark On Hive】—— 基于电商数据分析的项目实战

overfit同步小助手 2024-07-19 22:03:30 0 收藏

Spark RDD实现分组求TopN

这会得到一个新的RDD，其中的元素是二元组，其中第一个元素是姓名，第二个元素是一个迭代器，包含与该姓名关联的所有成绩的二元组。该Scala代码使用了Apache Spark的RDD（弹性分布式数据集）API来处理一个文本文件，该文件包含按逗号分隔的姓名和成绩数据。因为每一行为一条数据，所以先构成（姓

overfit同步小助手 2024-07-19 19:03:25 0 收藏

Spark 的Shuffle原理及调优

在MapReduce框架，Shuffle是连接Map和Reduce之间的桥梁，Map阶段通过shuffle读取数据并输出到对应的Reduce，而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中，往往伴随着大量的磁盘和网络I/O。所以，Hadoop中的shuffle性能的高

overfit同步小助手 2024-07-19 11:03:54 0 收藏