大数据 Spark - overfit.cn

Spark概念及运行模式

目的：点击yarn（8088）上spark任务的history按钮，进入的是spark历史服务器（18080），而不再是yarn历史服务器（19888）。Spark弊端：过于依赖内存，且因为数据倾斜，当内存资源较少时，容易出错。集群模式下，spark会先向HDFS上传spark库，然后yarn会下载

overfit同步小助手 2024-07-21 15:03:43 0 收藏

如何学习Spark：糙快猛的大数据之旅

回顾我从零开始学习大数据的journey，我深深体会到"糙快猛"学习方法的重要性。在Spark这样复杂而强大的技术面前，我们不应该被完美主义所束缚。相反，我们应该勇于尝试，在实践中学习，在错误中成长。记住，当我们面对看似不可能的挑战时，要保持那份"可把我牛逼坏了，让我叉会腰儿"的自信和决心。每一次你

overfit同步小助手 2024-07-21 08:03:18 0 收藏

pyspark TypeError: code() argument 13 must be str, not int

pyspark3.0.0执行pyspark demo代码报错。

overfit同步小助手 2024-07-21 07:04:09 0 收藏

Spark基于DPU的Native引擎算子卸载方案

随着SSD和万兆网卡普及以及I/O技术的提升，Spark用户的数据负载计算能力逐渐受到CPU性能瓶颈的约束。由于Spark本身基于JVM的Task计算模型的CPU指令优化，要远远逊色于其他的Native语言（C++等），再加上开源社区的Native引擎已经发展得比较成熟，具备优秀的量化执行能力，这就

overfit同步小助手 2024-07-20 06:03:31 0 收藏

Spark SQL函数

开窗函数row_number()是Spark SQL中常用的一个窗口函数，使用该函数可以在查询结果中对每个分组的数据，按照其排列的顺序添加一列行号（从1开始），根据行号可以方便地对每一组数据取前N行（分组取TopN）。上述代码中，df指的是DataFrame对象，使用s

overfit同步小助手 2024-07-20 05:03:41 0 收藏

基于Spark天气数据分析系统的设计与实现

在大数据时代，天气数据作为一种重要的公共资源，不仅影响人们的日常生活，还对农业、交通、能源等多个领域产生深远影响。通过对天气数据的全面处理和展示，可以帮助人们更好地理解和预测天气变化，从而做出更加科学的决策。我们设计并实现了一个基于Spark的天气数据分析系统，该系统通过数据采集、清洗、分析和可视化

overfit同步小助手 2024-07-19 23:03:31 0 收藏

【Spark On Hive】—— 基于电商数据分析的项目实战

overfit同步小助手 2024-07-19 22:03:30 0 收藏

Spark RDD实现分组求TopN

这会得到一个新的RDD，其中的元素是二元组，其中第一个元素是姓名，第二个元素是一个迭代器，包含与该姓名关联的所有成绩的二元组。该Scala代码使用了Apache Spark的RDD（弹性分布式数据集）API来处理一个文本文件，该文件包含按逗号分隔的姓名和成绩数据。因为每一行为一条数据，所以先构成（姓

overfit同步小助手 2024-07-19 19:03:25 0 收藏

Spark 的Shuffle原理及调优

在MapReduce框架，Shuffle是连接Map和Reduce之间的桥梁，Map阶段通过shuffle读取数据并输出到对应的Reduce，而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中，往往伴随着大量的磁盘和网络I/O。所以，Hadoop中的shuffle性能的高

overfit同步小助手 2024-07-19 11:03:54 0 收藏

深入解析 Spark SQL 中的 REPARTITION 操作

overfit同步小助手 2024-07-19 10:03:55 0 收藏

Spark, Storm, Flink简介

本文主要介绍Spark, Storm, Flink的区别。

overfit同步小助手 2024-07-19 07:03:44 0 收藏

Spark SQL的基本使用和操作

Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据，是指具有Schema信息的数据，例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同，Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spar

overfit同步小助手 2024-07-18 19:03:23 0 收藏

大数据面试题之Spark(5)

overfit同步小助手 2024-07-17 15:03:20 0 收藏

Spark产生小文件的原因及解决方案

Hadoop集群中的文件都是以块（Block）的形式存储在分布式文件系统（HDFS）中的，而Block的默认大小设置随着Hadoop的版本迭代经历了64MB、128MB、256MB，其大小实际受制于磁盘/网络的传输速率。当Block的大小为128MB时，若一个文件的大小显著小于128MB，我们就称之

overfit同步小助手 2024-07-17 12:03:55 0 收藏

PySpark实战教程：大数据处理与分析案例

在开始使用PySpark之前，首先需要安装Apache Spark。Apache Spark是一个开源的大数据处理框架，它提供了对大规模数据集进行快速处理的能力。PySpark则是Spark的Python API，允许开发者使用Python编写Spark应用程序。

overfit同步小助手 2024-07-17 10:03:52 0 收藏

Spark编程基础

Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎特点：运行速度快、容易使用、通用性、运行模式多样。

overfit同步小助手 2024-07-17 09:03:34 0 收藏

Spark算法之ALS模型（附Scala代码）

ALS模型，全称为交替最小二乘法（Alternating Least Squares），是一种基于协同过滤思想的矩阵分解算法。它的核心思想是通过隐含特征（latent factors）联系用户兴趣和物品（item），基于用户的行为找出潜在的主题和分类，然后对物品进行自动聚类，划分到不同类别或主题（代

overfit同步小助手 2024-07-17 03:03:52 0 收藏

Apache Spark 入门指南：概述、安装、使用及RDD基础

Apache Spark 是一个快速且通用的大规模数据处理引擎。它提供了一个易于使用的编程模型，支持Java、Scala、Python和R等多种编程语言。Spark 能够高效地处理各种数据，包括批量数据和实时数据流。在Spark中，RDD（Resilient Distributed Dataset）

overfit同步小助手 2024-07-17 01:03:38 0 收藏

Spark SQL 概述

架构、特点、运行原理、API 相关概述、依赖、数据集、基本用法

overfit同步小助手 2024-07-16 19:03:56 0 收藏

【openeuler/spark docker image overview】

【代码】【openeuler/spark docker image overview】

overfit同步小助手 2024-07-16 12:03:46 0 收藏