大数据 Spark - overfit.cn

spark统一内存模型详解

Spark 的统一内存模型通过动态调整执行内存和存储内存的划分，极大地提高了内存资源的利用率。通过引入堆外内存支持、灵活的内存共享机制以及动态扩展策略，Spark 能够在不同类型的任务（如批处理、流处理、机器学习）之间高效地分配和管理内存资源。我们从底层原理和源代码的角度详细解析了 Spark 内存

overfit同步小助手 2024-12-07 01:03:31 0 收藏

Spark SQL之DataFrame，df对象的创建与使用

Spark SQL之DataFrame，df对象的创建与使用；row+schema对象创建；RDD转为df对象；Pandas中的df对象转为Spark中的df对象；从文件中读取创建；

overfit同步小助手 2024-12-06 16:04:19 0 收藏

2023_Spark_实验十五：SparkSQL进阶操作

本实验通过实践掌握Spark SQL中的复杂查询，如子查询、窗口函数和联接操作，同时学习性能优化策略，包括数据分区、缓存机制和查询优化。学员实现了一个ETL数据处理流程，从日志和交易数据中提取信息，清洗数据并进行复杂查询，最终将处理结果加载到目标存储中。这些技能为后续的大数据分析和处理奠定了基础。

overfit同步小助手 2024-12-06 07:03:59 0 收藏

数据仓库和sql 高级查询技巧

根据自己对一些大数据分析相关文章的一些阅读和理解，整理了一些数据分析、Sparksql（也可以是hivesql）常见高级技巧的使用示例，包括语句的实现和特定场景优化等。这些示例有些是大厂数据开发面试中的常见题目。

overfit同步小助手 2024-12-05 23:03:34 0 收藏

Spark入门到实践

overfit同步小助手 2024-12-05 18:03:13 0 收藏

Flink和Spark的区别是什么？各自的应用场景是什么？

FlinkFlink 是一个分布式流处理框架，其架构基于流计算，将一切都看作是流。它采用了一种基于事件驱动的架构，数据以流的形式源源不断地进入系统，并且能够实时处理这些数据。例如，在实时监控网络流量的场景中，网络流量数据作为一个持续的数据流进入 Flink 系统，Flink 可以对每一个数据包（事件

overfit同步小助手 2024-12-05 11:04:29 0 收藏

Spark核心架构设计及技术原理实现

胡弦，视频号2023年度优秀创作者，互联网大厂P8技术专家，Spring Cloud Alibaba微服务架构实战派(上下册)和RocketMQ消息中间件实战派(上下册)的作者，资深架构师，技术负责人，极客时间训练营讲师，四维口袋KVP最具价值技术专家，技术领域专家团成员，2021电子工业出版社年度

overfit同步小助手 2024-12-05 08:03:54 0 收藏

SparkStraming

SparkStraming 3.0.0【Spark Version:3.0.0】【Scala Version:2.12】第 1 章 SparkStreaming 概述1.1 Spark Streaming 是什么Spark Streaming 用于流式数据的处理。Spark Streaming 支持

overfit同步小助手 2024-12-05 00:03:46 0 收藏

大数据技术之SparkCore

RDD概述什么是RDDRDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。RDD五大特性RDD编程RDD的创建在Spark中创建RDD的创建方式可以

overfit同步小助手 2024-12-04 16:07:40 0 收藏

【spark的集群模式搭建】spark集群之Yarn集群模式搭建（清晰明了的搭建流程）

spark的集群模式搭建：spark集群之Yarn集群模式搭建流程

overfit同步小助手 2024-12-04 12:03:46 0 收藏

Spark：大数据处理的强大引擎

Apache Spark 是一个专为大规模数据处理而设计的快速、通用、可扩展的大数据分析计算引擎。它诞生于 2009 年，由美国加州伯克利大学的 AMP 实验室开发，2013 年被纳入 Apache 开源项目，并迅速成为顶级项目。Spark 被认为是 Hadoop 框架的升级版，主要原因在于其功能强

overfit同步小助手 2024-12-04 10:03:49 0 收藏

【Spark】架构与核心组件：大数据时代的必备技能（下）

本文旨在深入探讨Apache Spark这一开源大数据处理框架的基础与架构。Spark凭借其高效的内存计算能力、易于使用的API以及丰富的生态系统，已成为大数据处理和分析领域的首选工具。文章首先介绍了Spark的基本概念，包括其起源、发展、应用场景以及与其他大数据处理框架（如Hadoop）的对比。通

overfit同步小助手 2024-12-04 09:03:27 0 收藏

【Spark】【大数据技术基础】课程实验七 Spark基础编程实验

环境配置问题：最初在配置环境变量时，由于路径错误导致无法启动Spark Shell。通过检查并修正.bashrc文件中的SPARK_HOME路径，我解决了这个问题。程序编译错误：在编写数据去重程序时，由于对Scala语法不熟导致编译错误。通过查阅文档和示例代码，我逐步修正了代码中的语法错误。运行时性

overfit同步小助手 2024-12-03 04:03:38 0 收藏

一文解读数据仓库的分层逻辑和原理

ODS 层的主要功能是对业务数据进行抽取（Extract），实现数据的初步集成，即将不同来源、不同格式的数据进行汇聚，为后续的数据处理提供一个统一的数据基础。它遵循企业的数据标准和规范，对数据进行更深入的清洗和转换，确保数据的准确性和完整性。：存储的是轻度汇总的数据。：包括结构化数据（如订单表、用户

overfit同步小助手 2024-12-02 20:03:47 0 收藏

Hadoop 不再孤单：与 Spark、Hive、Flume 组合的强大威力

通过这篇文章，我们了解了如何设计一个基于Hadoop的分布式文件处理系统。如今在大数据领域单独使用Hadoop的还是比较少的，更多的是与其他大数据技术栈结合使用，形成一个完整的大数据生态系统。Hadoop作为大数据处理的基础框架，虽然功能强大，但在某些方面也存在一些局限性，比如实时处理能力不足、复杂

overfit同步小助手 2024-12-01 21:03:51 0 收藏

Spark资源调度和任务调度

Spark client模式下任务成功运行时会在node1、node2两个节点，随机一个节点上启动两个进程 :1) ApplicationMaster : 所有任务在yarn上运行都会启动的进程2) Executor : 执行器在master节点启动一个进程 :1) SparkSubmit

overfit同步小助手 2024-12-01 18:03:55 0 收藏

数据管理的四大支柱：揭秘数据中台、数据仓库、数据治理和主数据

数据管理的四大支柱

overfit同步小助手 2024-12-01 10:03:57 0 收藏

mac2019环境 Airflow+hive+spark+hadoop本地环境安装

本地安装可分为两个部分，mac软件环境， python开发环境ps: 安装过程参考chatgpt、csdn文章。

overfit同步小助手 2024-12-01 08:03:33 0 收藏

spark sql 广播模式参数

控制小表自动广播的阈值。：控制广播的超时时间。：影响分区数，从而影响 Join 操作的性能。：控制自适应执行时广播的阈值。根据你的数据规模和场景，合理调整这些参数可以帮助优化 Spark SQL 的性能。

overfit同步小助手 2024-12-01 01:04:00 0 收藏

大数据技术之Spark ：我快呀～

由于 MapReduce 的计算模型只有 Map 和 Reduce 两个阶段，在实现复杂计算需求时就要编写多个 Mapper 和 Reducer 的实现。以上面800个数据块为例子，MapReduce 会有800次的 Map 计算结果落盘以及多个 Reduce 计算结果聚合（这个行为有一个专业的术语

overfit同步小助手 2024-11-30 21:03:43 0 收藏