大数据 Spark - overfit.cn

Spark中的内存管理机制是如何工作的？

Spark 的内存管理机制通过执行内存和存储内存的分离，以及动态调整内存分配策略，来优化内存使用。通过合理的配置和监控，可以有效地管理 Spark 应用程序的内存使用，从而提高性能和稳定性。正确理解并配置这些内存管理选项，对于开发高性能的 Spark 应用程序至关重要。

overfit同步小助手 2024-11-30 05:03:33 0 收藏

Spark 的介绍与搭建：从理论到实践

通过本文对 Spark 的全面介绍，从其分布式思想、自身的发展历程、功能特点等，再到单机模式的搭建和测试，希望读者能够对 Spark 有一个清晰、深入的理解。Spark 作为大数据领域的重要工具，还有更多的潜力等待大家去挖掘和探索，希望这篇文章能成为大家在 Spark 学习和实践道路上的一个有力指引

overfit同步小助手 2024-11-30 04:03:40 0 收藏

Hive 整合 Spark 全教程（Hive on Spark）

分类应用Haddop 2.xHaddop 3.xNNPortsNamenode80209820NNPortsNN HTTP UI500709870NNPorts504709871SNN portsSNN HTTP500919869SNN ports500909868DN portsDN IPC500

overfit同步小助手 2024-11-29 00:03:42 0 收藏

数据仓库宽表概述

此外，在数据更新时，宽表可能需要进行大量的数据重建操作，这会增加系统的负担。由于宽表可以显著提高查询性能，因此在需要实时或近实时分析的场景中，宽表是一个理想的选择。比如，在金融行业中，交易数据的实时分析对于决策和风险控制至关重要，宽表可以提供快速的数据访问，从而支持实时分析。尽管存在一些挑战，但随着

overfit同步小助手 2024-11-28 17:03:20 0 收藏

SparkSQL的UDF大数据量执行结果和HiveSQL的UDF不一致

因为Spark是线程不安全的，所以如果UDF使用了非线程安全的操作，那么就会导致不可预测行为，Hive是每个UDF在单独的JVM里执行，就会好很多。

overfit同步小助手 2024-11-28 14:03:41 0 收藏

Flume+Kafka+StructuredStreaming(pyspark)+Mysql分布式采集与微批处理

下面根据数据流向逐一介绍 Flume -> Kafka -> StructuredStreaming -> Mysql1. Flume Watch the specified files, and tail them in nearly real-time once detecte

overfit同步小助手 2024-11-28 13:03:18 0 收藏

Spark读MySQL数据rdd分区数受什么影响，读parquet、hdfs、hive、Doris、Kafka呢？

数据源影响因素配置参数MySQL、查询条件lowerBoundupperBoundParquet文件大小、文件数量、HDFSHDFS文件块大小、文件数量、Hive分区表、Doris查询条件、分区策略、KafkaKafka分区数、因此，读取数据源时的RDD分区数会受到数据源自身的存储方式、配置参数以及

overfit同步小助手 2024-11-28 11:03:30 0 收藏

Spark中给读取到的数据的列重命名的几种方式！

（注意：csv会自动按照“，”给切分开可以指定 option(sep,"\t")自定义切分符）withColumnRenamed（"默认列名","自定义列名"）toDF("列名","列名","列名")自定义表结构schema。

overfit同步小助手 2024-11-28 09:03:17 0 收藏

SnapshotScanMR速度比TableScanMR快10~30倍，那Spark如何实现SnapshotScanMR

HBase 提供的和是两种用于在大数据集中进行扫描的 MapReduce 作业，网上也有很多介绍Spark如何实现TableScanMR，但是对SnapshotScanMR的实现方式很少几乎没找到可用的，接下来我们先说说这两者的一些共同点以及不同的实现原理，再介绍Spark是如何实现的。

overfit同步小助手 2024-11-28 05:03:46 0 收藏

hadoop+Spark+django基于大数据的健康美食推荐系统(源码+文档+调试+可视化大屏)

Django基于大数据的健康美食推荐系统是一个结合了大数据技术和Django框架的健康饮食推荐平台。以下是对该系统的详细介绍：一、系统背景与意义在现代社会，随着健康意识的提高和人们对个性化健康管理的需求不断增长，基于大数据的健康美食推荐系统应运而生。该系统通过收集和分析用户的健康数据、饮食偏好以及食

overfit同步小助手 2024-11-27 16:03:22 0 收藏

spark-sql 参数配置与调优

set spark.dynamicAllocation.minExecutors=1 //每个Application最⼩分配的executor数。--每个mapper/reducer可以创建的最大动态分区数。

overfit同步小助手 2024-11-27 02:04:43 0 收藏

从一到无穷大 #37 Databricks Photon：打响 Spark Native Engine 第一枪

The execution engine needs to provide good performance on the raw uncurated datasets that are ubiquitous in data lakes, and excellent performance on

overfit同步小助手 2024-11-26 22:03:42 0 收藏

PySpark 本地开发环境搭建与实践

本文详细介绍了 PySpark 本地开发环境的搭建过程，包括 JDK、Hadoop、Anaconda、PySpark 的安装以及 Pycharm 工程的创建。同时，深入讲解了代码编写、本地开发案例（如 WordCount、处理特殊分隔符、读取 hdfs 数据、获取外部变量）、Spark 程序的监控和

overfit同步小助手 2024-11-26 08:03:34 0 收藏

Spark的容错机制

1，Spark如何保障数据的安全。

overfit同步小助手 2024-11-26 07:07:11 0 收藏

Apache Spark 学习路径

什么是Apache Spark？Apache Spark是一个快速的、通用的大规模数据处理引擎。Spark的历史和发展起源于2009年的加州大学伯克利分校AMPLab项目。成为了Apache软件基金会的一个顶级项目。Spark的优势和应用场景内存计算，快速迭代。应用于批处理、交互式查询、流处理、机器

overfit同步小助手 2024-11-26 06:09:33 0 收藏

学习Spark需要哪些基础知识

今天，我想和大家分享一个非常实用的话题——学习Spark需要哪些基础知识？Spark作为大数据处理领域的重要工具，其强大的数据处理能力和分布式计算能力使其在业界广受好评。但是，对于初学者来说，如何入门Spark却是一个不小的挑战。本文将从基础到进阶，一步步带你了解学习Spark所需的基础知识。

overfit同步小助手 2024-11-25 23:03:27 0 收藏

Linux基础环境搭建（CentOS7）- 安装Scala和Spark

Linux基础环境搭建（CentOS7）- 安装Scala和Spark。

overfit同步小助手 2024-11-25 21:03:46 0 收藏

数据仓库面试题集&离线&实时

1、2、Flink提交方式，使用pre-job还是yarn-session模式，好处？

overfit同步小助手 2024-11-25 15:03:41 0 收藏

pyspark入门基础详细讲解

学习目标：掌握pyspark库的安装，掌握pyspark执行环境入口对象的构建，理解pyspark的编程模型。建议使用国内代理镜像网站下载更快。

overfit同步小助手 2024-11-25 14:03:50 0 收藏

基于Spark的电信用户行为分析系统的设计与实现(源码+文档+部署讲解等)

基于Spark的电信用户行为分析系统的设计与实现是为了应对电信行业海量数据处理和深入用户洞察的需求。该系统在设计上充分考虑了电信数据的复杂性和多样性。采用分布式架构，能够高效地采集、存储和处理来自不同渠道的电信用户数据，包括通话记录、短信记录、上网流量数据等。通过数据清洗和预处理模块，对原始数据进行

overfit同步小助手 2024-11-25 09:03:36 0 收藏