Spark - overfit.cn

Ubuntu22.04下在Spark2.4.0中采用Local模式配置并启动pyspark

Ubuntu22.04下在Spark2.4.0中采用Local模式配置并启动pyspark（python3.5.2）

overfit同步小助手 2024-03-07 15:03:56 0 收藏

Spark中写parquet文件是怎么实现的

的时候得注意不能调整过大，否则会导致OOM，但是如果在最后写文件的时候加入合并小文件的功能（AQE+Rebalance的方式），也可以适当的调整大一点，因为这个时候的Task 不像没有shuffle一样，可能还会涉及到sort以及aggregate等消耗内存的操作，（这个时候就是一个task纯写pa

overfit同步小助手 2024-03-07 11:03:57 0 收藏

Spark在降本增效中的一些思考

这也是笔者一直在关注的项目，根据 TPC-H 测试结果显示起码有2倍的性能提升，但是实际效果还是得看SQL的pattern。但是由于目前我们的Spark 是基于 3.5.0的，是比较新的版本，而社区这块的融合还在继续，所以这块今年应该可以行动起来,可以参考。注意：我们批集群的CPU利用率在60%以

overfit同步小助手 2024-03-07 00:03:51 0 收藏

基于Spark协同过滤的农产品个性推荐系统

本系统是一个基于Python技术栈开发的农产品在线交易平台。通过集成了pyspark、hadoop、django、scrapy、vue、element-plus等多个优秀开源框架，实现了全方位的功能覆盖，并采用了协同过滤算法为用户推荐相关农产品。首先，我们使用Scrapy爬虫框架抓取惠农网站上的农产

overfit同步小助手 2024-03-06 22:03:39 0 收藏

2024-02-26（Spark，kafka）

1）SparkSQL和Hive都是用在大规模SQL分布式计算的计算框架，均可以运行在YARN上，在企业中被广泛应用。2）SparkSQL的数据抽象为：SchemaRDD（废弃），DataFrame（Python，R，Java，Scala），DataSet（Java，Scala）3）DataFrame

overfit同步小助手 2024-03-05 16:03:10 0 收藏

spark的保姆级配置教程

如果报以下错误，就输入conda activate pyspark 激活环境。pip下载pyhive、pyspark、jieba包。该环境搭建spark使用spark-2.4.0版本。一样运用xshell上传文件。解压之后进行重命名，重命名为。在文件后面追加下面的内容。路径根据你自己的修改。

overfit同步小助手 2024-03-05 13:03:22 0 收藏

数据仓库与大数据技术的结合

1.背景介绍大数据技术已经成为当今企业和组织中不可或缺的一部分，它为企业提供了大量的数据来源，帮助企业更好地了解市场、客户、产品等，从而提高企业的竞争力。然而，大数据技术的发展也带来了一系列的挑战，如数据的存储、处理、分析等。数据仓库技术是一种用于存储、管理和分析大量数据的技术，它的发展也与大数据技

overfit同步小助手 2024-03-05 10:03:59 0 收藏

【Spark精讲】SparkSQL的RBO与CBO

Spark SQL的核心是Catalyst查询编译器。SQL优化器：RBO、CBO基于规则的优化器(Rule-Based Optimization,RBO)基于代价的优化器(Cost-Based Optimization,CBO)Outer 类型 Join 中的谓词下推通过 "spark.sql.c

overfit同步小助手 2024-03-05 00:03:36 0 收藏

spark withColumn的使用（笔记）

withColumn()：是Apache Spark中用于DataFrame操作的函数之一，它的作用是在DataFrame中添加或替换列，或者对现有列进行转换操作和更新等等。

overfit同步小助手 2024-03-04 14:03:49 0 收藏

Spark 基础概念

Spark1. Spark基础概念1.1 Spark概述1.2 Spark 四大特点运行速度快1.3 Spark 框架1.4 Spark 运行模式集群模式1.5 spark-shell1.6 Spark Application程序1.6 Spark Standalone集群模式介绍Standalo

overfit同步小助手 2024-03-04 14:03:33 0 收藏

Spark: a little summary

对于数据分区中的数据记录，Spark 会根据我们前面提到的公式 1 逐条计算记录所属的目标分区 ID，然后把主键（Reduce Task Partition ID，Record Key）和记录的数据值插入到 Map 数据结构中。到此为之，磁盘上存有若干个溢出的临时文件，而内存的 Map 结构中留有部

overfit同步小助手 2024-03-04 00:03:47 0 收藏

【Spark原理系列】自定义聚合函数 UserDefinedAggregateFunction 原理用法示例源码分析

`UserDefinedAggregateFunction` 是 Spark SQL 中用于实现用户自定义聚合函数（UDAF）的抽象类。通过继承该类并实现其中的方法，可以创建自定义的聚合函数，并在 Spark SQL 中使用。

overfit同步小助手 2024-03-03 20:03:40 0 收藏

Spark3的新特性

Spark3新特性

overfit同步小助手 2024-03-03 07:03:31 0 收藏

Spark on YARN部署模式保姆级教程

没有最好的部署模式，具体要根据实际需求进行部署，由于Spark可以和Hadoop部署在一起，相互协作，Hadoop的HDFS，HBase负责数据存储与管理，Spark负责数据的计算，所以本文将详细讲解Spark on YARN模式的部署。这两种模式的选择取决于实际需求和使用环境，例如，学习、调试阶段

overfit同步小助手 2024-03-03 03:03:30 0 收藏

Elasticsearch与Hadoop和Spark的整合与大数据处理

1.背景介绍1. 背景介绍Elasticsearch是一个开源的搜索和分析引擎，基于Lucene库构建，具有实时搜索、文本分析、数据聚合等功能。Hadoop是一个开源的分布式存储和分析平台，由Google的MapReduce算法启发，具有高可扩展性和高容错性。Spark是一个快速、高效的大数据处理引

overfit同步小助手 2024-03-02 10:03:53 0 收藏

简单使用Spark、Scala完成对天气数据的指标统计

学习Spark和Scala编程可以帮助我们处理大规模数据，进行数据分析。使用Spark和Scala编写程序可以提高数据处理的效率和灵活性，同时还能够充分发挥分布式计算的优势。通过学习这两门技术，我们可以更好地理解数据处理的流程和原理，并且可以应用到实际的数据分析和统计工作中。总而言之，学习Spark

overfit同步小助手 2024-03-02 05:03:33 0 收藏

Flink Shuffle、Spark Shuffle、Mr Shuffle 对比

overfit同步小助手 2024-03-02 01:03:51 0 收藏

Spark的timestamp 数据时间问题

使用Spark来处理国际业务数据，涉及到数据时区转换，在实际项目中出现时区转换问题。但在实际Cluster 去run job的时候，如果给一个eff_dt为的时间，但是往往会出现df_eff_dt为20240131的日期。

overfit同步小助手 2024-03-01 19:03:49 0 收藏

Iceberg从入门到精通系列之二十四：Spark Structured Streaming

Iceberg 使用 Apache Spark 的 DataSourceV2 API 来实现数据源和目录。Spark DSv2 是一个不断发展的 API，在 Spark 版本中提供不同级别的支持。

overfit同步小助手 2024-03-01 18:03:58 0 收藏

Spark 提交命令和参数介绍

参考：spark官网配置介绍：Configuration - Spark 3.5.0 Documentationspark-sql参数一、提交命令参数名格式参数说明--packages包含在driver和executor的classpath下的jar包逗号分隔的”groupId:artifac

overfit同步小助手 2024-03-01 07:03:49 0 收藏