大数据 Spark - overfit.cn

Spark编程基础（Python版）林子雨期末复习

Structured sreaming处理的数据与Spark Streaming一样，也是源源不断的数据流，它们之间的区别在于，Spark Streaming采用的数据抽象是DStream(本质上就是一系列RDD),而Structured Streaming采用的数据抽象是DataFrame。用户需

overfit同步小助手 2024-07-11 00:03:38 0 收藏

Spark动态分区合并底层原理详解：案例解析（第30天）

本文主要详解Spark动态分区合并底层原理和应用场景。

overfit同步小助手 2024-07-10 14:03:53 0 收藏

企业spark案例 —— 出租车轨迹图表展示（头歌）

text: '各出租车平台年使用率'text: '各平台各服务数量'

overfit同步小助手 2024-07-10 12:03:32 0 收藏

技术周总结 2024.07.01~07.07(Spark & Scala)

Spark代码编程

overfit同步小助手 2024-07-10 07:03:47 0 收藏

分布式数据处理：Hadoop与Spark的全面比较

1.背景介绍分布式数据处理是大数据时代的必经之路，随着数据规模的不断扩大，单机处理的能力已经不能满足需求。因此，分布式计算技术逐渐成为了主流。Hadoop和Spark是目前最为流行的分布式计算框架之一，它们各自具有不同的优势和应用场景。在本文中，我们将对Hadoop和Spark进行全面的比较，以帮助

overfit同步小助手 2024-07-09 21:03:18 0 收藏

【spark】新浪新闻网数据采集实时分析项目

该项目是一个基于Spark的综合实训项目，旨在实现对新浪新闻网数据的实时采集和分析。项目包括数据采集（使用Python和Scrapy框架将新浪新闻数据存入MongoDB）、数据转存（使用Scala将数据从MongoDB实时导入HDFS）、数据分析与存储（使用Spark Streaming对HDFS上

overfit同步小助手 2024-07-09 14:03:15 0 收藏

基于spark的医疗大数据可视化大屏项目

本文将介绍如何利用Apache Spark进行大规模心力衰竭临床数据的分析，并结合机器学习模型，构建一个交互式的可视化大屏，以直观展示数据分析结果。使用PySpark库，我们首先读取CSV文件中的心力衰竭临床记录数据，并进行必要的数据清洗工作，包括处理缺失值和异常值。血小板计数与死亡事件：通过堆叠条

overfit同步小助手 2024-07-09 12:03:45 0 收藏

spark基础详解：案例解析(第1天)

* 1- Spark基本介绍（了解）* 2- Spark入门案例（掌握）* 3- 常见面试题（掌握）

overfit同步小助手 2024-07-09 10:05:06 0 收藏

大数据 - Spark系列《九》- 广播变量

广播变量是Spark中一种重要的分布式数据共享机制。本文首先介绍了广播变量的简介和特点，然后探讨了其使用场景，并详细讲解了创建、访问和销毁广播变量的方法。此外，还分析了不适用广播变量的问题。最后，文章深入解释了广播变量的分发和读取机制，包括创建原理和读取原理。通过本文的学习，读者将全面了解广播变量在

overfit同步小助手 2024-07-09 01:03:47 0 收藏

Day9——学习spark

在数据计算层，作为Hadoop核心组成的MapReduce可以结合Hive通过类SQL的方式进行数据的离线计算（当然也可以编写独立的MapReduce应用程序进行计算）；而Spark既可以做离线计算（Spark SQL），又可以做实时计算（Spark Streaming），它们底层都使用的是Spar

overfit同步小助手 2024-07-08 04:03:51 0 收藏

Spark学习3.0

，避免了多次转换操作之间数据同步的等待，而且不用担心有过多的中间数据，因为这些具有血缘关系的操作都管道化了，一个操作得到的结果不需要保存为中间数据，而是直接管道式地流入到下一个操作进行处理。RDD就是为了满足这种需求而出现的，它提供了一个抽象的数据架构，我们不必担心底层数据的分布式特性，只需将具体的

overfit同步小助手 2024-07-07 06:03:25 0 收藏

Spark Core内核调度机制详解(第5天）

本文主要详解了1. 如何构建DAG执行流程图 2. 如何划分Stage阶段3. Driver底层是如何运转 4. 确定需要构建多少分区(线程)

overfit同步小助手 2024-07-06 15:03:19 0 收藏

基于Spark的智能餐饮推荐系统报告（只含部分代码）

推荐算法功能是基于python机器学习库实现的，旨在通过分析用户的历史行为和偏好，以及餐饮商户的菜品、评价等信息，为用户提供个性化的餐饮推荐。推荐算法功能是基于python机器学习库实现的，旨在通过分析用户的历史行为和偏好，以及餐饮商户的菜品、评价等信息，为用户提供个性化的餐饮推荐。通过分析用户的饮

overfit同步小助手 2024-07-06 11:03:47 0 收藏

大数据与云计算——Spark的安装和配置

Apache Spark是一个基于内存的分布式计算框架，它提供了高效、强大的数据处理和分析能力。与传统的Hadoop MapReduce相比，Spark的主要优势在于其能够将数据集缓存在内存中，从而大大减少了磁盘I/O操作，提高了数据处理速度。

overfit同步小助手 2024-07-06 09:03:45 0 收藏

IDEA开发Spark应用实战(Scala)

这份面试题几乎包含了他在一年内遇到的所有面试题以及答案，甚至包括面试中的细节对话以及语录，可谓是细节到极致，甚至简历优化和怎么投简历更容易得到面试机会也包括在内！也包括教你怎么去获得一些大厂，比如阿里，腾讯的内推名额！某位名人说过成功是靠99%的汗水和1%的机遇得到的，而你想获得那1%的机遇你首先就

overfit同步小助手 2024-07-06 07:03:55 0 收藏

【大数据Spark】常见面试题（万字！建议收藏）

大数据面试题 spark常见面试题数据倾斜是在数据处理过程中出现的一种情况，指某些数据分区的大小远远大于其他分区的情况，导致任务执行时间不均衡。因此，对于数据倾斜问题，需要及时检测和解决，采取合理的数据分区策略、数据预处理、使用随机前缀等方式来减少数据倾斜，以提高作业的执行效率和稳定性。综上所述

overfit同步小助手 2024-07-05 21:03:54 0 收藏

SpringBoot使用Spark的DataFrame API

Apache Spark是一个开源的分布式计算系统，它提供了一个快速和通用的集群计算平台。Spark 能够处理大规模数据，支持多种编程语言，如Scala、Java和Python，并且具有多种高级功能，包括SQL查询、机器学习、图处理和实时数据流处理。Spark是一个功能强大且灵活的计算平台，适用于各

overfit同步小助手 2024-07-05 19:03:30 0 收藏

（保姆级）Spark气象监测数据分析-步骤2.1筛选六大污染物浓度排名前20的时段

首先这篇博客绝对原创。读者遇到编程中的任何问题可以留言，看到了就会回复。

overfit同步小助手 2024-07-05 02:03:40 0 收藏

基于Spark3.3.4版本,实现Standalone 模式高可用集群部署

在早期大数据处理中，我们会选择使用MapReduce分析处理海量数据，MapReduce存在计算慢、代码编写复杂、不支持流式计算及性能上的一些问题，Apache Spark计算框架的出现解决了MapReduce计算框架以上各种问题，Apache Spark是新一代的大数据计算框架，支持针对批量数据及

overfit同步小助手 2024-07-05 01:03:15 0 收藏

八股文系列Spark

两者并没有大的差别。都是将 mapper（Spark 里是 ShuffleMapTask）的输出进行 partition，不同的 partition 送到不同的 reducer（Spark 里 reducer 可能是下一个 stage 里的 ShuffleMapTask，也可能是 ResultTas

overfit同步小助手 2024-07-04 03:03:53 0 收藏