Spark - overfit.cn

Pyspark环境配置（Anaconda3）--保姆级教程

本文章主要帮助读者在 Windows 操作系统上搭建单机模式的 PySpark 开发环境.本次环境安装包括：JDK-1.8+jre-1.8+Mysql-8.0+Anaconda3(2022.10)+hadoop-3.2.2+hive-3.1.1

overfit同步小助手 2024-10-21 05:06:35 0 收藏

实战教程！Zabbix 监控 Spark 中间件配置教程

JMX（Java Management Extensions）作为Java平台标准的一部分，提供了一种标准化的机制，用于监控和管理应用程序、系统对象、设备和服务。JMX具有跨平台、灵活性强、监控能力强、易于集成与扩展、图形化界面支持以及安全性与可配置性等多方面的优势，是监控Spark等复杂Java应

overfit同步小助手 2024-10-20 20:03:31 0 收藏

基于 MySQL + Spark + Echarts + SpringBoot的豆瓣电影数据可视化项目

本项目成功实现了基于 MySQL + Spark + Echarts + Spring Boot 的豆瓣电影数据可视化，为电影爱好者、研究者和从业者提供了有价值的数据分析和可视化工具。未来，可以进一步扩展数据来源和分析维度，提高数据的准确性和完整性，同时优化可视化效果，提供更加丰富和交互性强的用户体

overfit同步小助手 2024-10-20 16:03:49 0 收藏

Hadoop、Spark和 Hive 的详细关系

Hadoop 提供了分布式存储和资源管理的基础。Spark 提供了高效的内存计算和丰富的数据处理 API。Hive 提供了类 SQL 的接口，简化了数据查询和分析。这三种技术的结合使得组织能够存储、处理和分析海量数据，满足各种大数据应用场景的需求。

overfit同步小助手 2024-10-20 09:03:46 0 收藏

大数据生态组件学习笔记（一）

负责开发和维护多个知名的开源项目，如 Apache HTTP Server、Apache Hadoop、Apache Spark 等。spark是在内存中计算，然后数据存在内存中吗，从内存中读取数据？，实际需求可能会更高，考虑到中间结果、操作的复杂性和其他因素，建议至少准备 1.5 到 2 倍的内存

overfit同步小助手 2024-10-20 03:03:42 0 收藏

摸鱼大数据——Spark Structured Steaming——Spark 和 Kafka 整合

Spark天然支持集成Kafka, 基于Spark读取Kafka中的数据, 同时可以实施精准一次（仅且只会处理一次）的语义, 作为程序员, 仅需要关心如何处理消息数据即可, 结构化流会将数据读取过来, 转换为一个DataFrame的对象, DataFrame就是一个无界的DataFrame, 是一个

overfit同步小助手 2024-10-19 01:03:15 0 收藏

基于python+django的Spark的国漫推荐系统的设计与实现

随着国漫的崛起和受众群体的不断扩大，为用户提供个性化的国漫推荐服务变得愈发重要。基于 Python + Django 的 Spark 的国漫推荐系统应运而生，旨在为动漫爱好者打造一个专属的国漫发现平台。该系统充分发挥 Python 的灵活性和强大的库支持。利用 Python 编写爬虫程序，从多个动漫

overfit同步小助手 2024-10-18 19:03:31 0 收藏

Spark高级用法-数据源的读取与写入

使用read和write实现数据导入导出读取mysql数据库的原始数据表在将读取到的数据导入数仓中。

overfit同步小助手 2024-10-17 08:06:03 0 收藏

【小白的大数据进阶之路】2024小白入门大数据，进阶成大牛，需要学习哪些技术？

2024小白入门大数据，进阶成大牛，需要学习哪些技术？每个技术在大数据领域的应用场景是啥？一个完整的大数据项目涉及到哪些流程环节，整个技术框架是怎样的？想要在2024年从小白进阶成大数据领域的大牛，你需要系统地学习一系列技术，并了解它们在大数据领域的应用场景。以下是一个详细的学习路线和每个技术的应用

overfit同步小助手 2024-10-16 22:03:40 0 收藏

Spark 运行架构

Spark 框架的核心是一个计算引擎，整体来说，它采用了标准的 master-slave 结构。上图中的 Driver 表示 master ，负责管理整个集群中的作业任务调度；Executor 则是 slave，负责实际执行任务；

overfit同步小助手 2024-10-16 20:03:49 0 收藏

【大数据】Spark Executor内存分配原理与调优

我们都知道 Spark 能够有效的利用内存并进行分布式计算，其内存管理模块在整个系统中扮演着非常重要的角色。为了更好地利用 Spark，深入地理解其内存管理模型具有非常重要的意义，这有助于我们对 Spark 进行更好的调优；在出现各种内存问题时，能够摸清头脑，找到哪块内存区域出现问题。

overfit同步小助手 2024-10-16 13:04:36 0 收藏

全面解析数据仓库：发展历程、核心作用与未来趋势

数据湖与数据仓库相结合，可以实现数据的全生命周期管理，既满足数据仓库对高质量数据的需求，又具备数据湖对原始数据的灵活存储和处理能力。在当今信息化社会，数据已经成为企业最重要的资产之一，而数据仓库作为一种能够有效存储、管理和分析大量数据的技术，已经成为各行各业的重要支撑。本文将深入探讨数据仓库的发展历

overfit同步小助手 2024-10-15 22:03:55 0 收藏

Spark 的 Skew Join 详解

数据倾斜指的是当某些key关联了异常大量的数据，而其他key关联的数据量较少时，数据分布的不均衡会导致计算瓶颈。例如，在JOIN操作中，如果表 A 中某个key具有大量的数据，而表 B 中同样的key也有大量数据，当这两个表基于这个key进行JOIN时，由于该key被分配到一个或少数几个分区，相关的

overfit同步小助手 2024-10-15 19:03:53 0 收藏

基于Spark 的零售交易数据挖掘分析与可视化

我们使用了 PySpark 来处理一个电商数据集，数据存储在 HDFS 上。通过 SQL 和 RDD 操作实现了多个业务需求分析，并最终将结果保存为 JSON 文件，用于前端展示。后端 Web 服务采用 Bottle 框架，提供静态文件服务和页面展示。

overfit同步小助手 2024-10-15 15:04:47 0 收藏

大数据处理框架Spark和Flink的功能、应用场景、性能有哪些差异？

Spark更适合大规模的批处理任务和离线数据分析。Flink则适合需要实时流处理、低延迟和高级复杂事件处理的场景。

overfit同步小助手 2024-10-15 05:03:43 0 收藏

Spark-ShuffleWriter-UnsafeShuffleWriter

ShuffleMapTask向调度器返回的结果。包括任务存储shuffle文件的块管理器地址，以及每个reducer的输出大小，以便传递给reduce任务。当调度器发现这个ShuffleMapTask执行完成，就会执行下一个ShuffleMapTask或者ResultTask。

overfit同步小助手 2024-10-15 04:03:10 0 收藏

Apache Iceberg 与 Spark整合-使用教程（Iceberg 官方文档解析）

spark & iceberg

overfit同步小助手 2024-10-13 11:03:37 0 收藏

Spark-RDD（Resilient Distributed Dataset）图文详解

Spark-RDD概述

overfit同步小助手 2024-10-12 18:03:34 0 收藏

django基于spark的电力能耗数据分析系统的设计与实现

Django-Admin来自django.contrib也就是Django的标准库，默认被配置好，只需要激活启用即可，它的优势在于可以快速对数据库的各个表进行增删改查，一行代码即可管理一张数据库表，相比于手动后台1个模型一般需要4个urls，4个视图函数和4个模板，可以说Django完成了一个程序编

overfit同步小助手 2024-10-12 03:03:38 0 收藏

Spark原理及调优

spark 的原理及优化

overfit同步小助手 2024-10-11 08:04:31 0 收藏