大数据 Spark - overfit.cn

Spark数据介绍

RDD适合需要高度定制化的数据处理逻辑，对容错性要求高的批处理任务。DataFrame适合处理结构化数据，需要快速开发周期，易于使用 SQL 查询的场景。Dataset：结合了 RDD 和 DataFrame 的优点，提供了类型安全和优化执行的能力，适合需要结构化数据处理同时需要一定程度自定义逻辑的

overfit同步小助手 2024-10-09 06:04:35 0 收藏

SPARK调优：AQE特性（含脑图总结）

SparkAQE是spark 3.0引入的一大重要功能，今天我们来聊一聊AQE的实现原理。了解一个功能，先来了解其面临的问题。当涉及到大型集群中的复杂查询性能时，处理的并行度和正确Join策略选择已被证明是影响性能的关键因素。

overfit同步小助手 2024-10-08 21:03:31 0 收藏

Java 与 Apache Spark 集成：打造数据处理的超级英雄

Apache Spark 是一个开源的大规模数据处理框架，它提供了一个统一的编程模型，用于执行批处理、流处理、机器学习和图形处理等任务。Spark 的核心优势在于它的速度和易用性。由于 Spark 的 Java API 不像 Scala API 那样提供了方便的元组类型，我们需要自定义一个Pair类

overfit同步小助手 2024-10-08 19:03:50 0 收藏

spark-sql建表数据同步到hive

INSERT INTO paimon.my_db.my_table VALUES (1, 'M', 173.5,'北京市朝阳区'), (2, 'G',185, '上海市'), (3, 'cherry', 168.0,'河北省秦皇岛市');备注需要将将paimon-hive-connector-3.1

overfit同步小助手 2024-10-08 18:03:32 0 收藏

Spark的介绍

DataBricks官网：https://databricks.com/spark/aboutspark的诞生其实是因为MR计算引擎太慢了。MR计算是基于磁盘的，Spark计算是基于内存的。spark的发展历程：2009年，Spark诞生于伯克利AMPLab，伯克利大学的研究性项目。2014年2月成

overfit同步小助手 2024-10-07 16:03:30 0 收藏

（四十一）大数据实战——spark的yarn模式生产环境部署

Spark 是一个开源的分布式计算系统。它提供了高效的数据处理能力，支持复杂的数据分析和处理任务，是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布

overfit同步小助手 2024-10-07 12:03:47 0 收藏

Flink和Spark的区别

flink和spark的区别

overfit同步小助手 2024-10-05 20:03:35 0 收藏

Apache Spark: 大规模数据处理的统一分析引擎

Apache Spark是一个用于大规模数据处理的开源统一分析引擎,由加州大学伯克利分校AMPLab开发并于2010年开源。作为一个通用的大数据处理平台,Spark提供了高性能的内存计算能力和丰富的数据处理API,支持批处理、流处理、机器学习、图计算等多种应用场景。自开源以来,Spark迅速成为大数

overfit同步小助手 2024-10-05 13:03:57 0 收藏

大数据技术：Hadoop、Spark与Flink的框架演进

与Hadoop相比，Spark的改进主要有两点：● 易用性：比起MPI，MapReduce模型更友好，但仍然不够方便，因为并不是所有计算任务都可以简单拆分成map和reduce，有可能为了解决一个问题，要设计多个MapReduce任务，任务之间相互依赖，整个程序非常复杂，导致代码的可读性差。Spar

overfit同步小助手 2024-10-05 03:04:22 0 收藏

数据仓库系列19：数据血缘分析在数据仓库中有什么应用?

数据血缘分析（Data Lineage Analysis）是一种追踪、记录和可视化数据在整个生命周期中流动和转换过程的技术。它就像是为数据建立了一个详细的"族谱"，记录了数据从产生、存储、处理到最终使用的每一个环节。

overfit同步小助手 2024-10-04 21:06:43 0 收藏

hadoop+spark+hive基于django的民族服饰数据分析系统的设计与实现(源码+爬虫可视化展示+调试+讲解)

随着网络科技的发展，利用大数据分析对民族服饰进行管理已势在必行；该平台将帮助企业更好地理解服饰市场的趋势，优化服装款式，提高服装的质量。本文讲述了基于python语言开发，后台数据库选择MySQL进行数据的存储。该软件的主要功能是进行服饰数据分析。主要包括个人中心、用户管理、民族服饰管理、数据统计管

overfit同步小助手 2024-10-03 19:04:06 0 收藏

20240901 大数据流式计算 - SPRAK3.5与FLINK1.19（入门）

sourceflink SQLsourceflink SQLsourcesourceN/AsinkfileappendsinkkafkaAppend,基于SQL语义自动判断：1. 当simple source to sink ETL, append mode, 可以写KAFKA2. 当agg，有u

overfit同步小助手 2024-10-03 10:04:04 0 收藏

Spark与Kafka进行连接

在Java中使用Spark与Kafka进行连接，你可以使用Spark Streaming来处理实时流数据。以下是一个简单的示例，展示了如何使用Spark Streaming从Kafka读取数据并进行处理。

overfit同步小助手 2024-10-03 02:03:12 0 收藏

WSL + Vscode一站式搭建Hadoop伪分布式 + Spark环境

使用WSL + VSCODE 快速搭建 Hadoop 和 Spark 环境

overfit同步小助手 2024-10-01 15:03:21 0 收藏

Spark 和 NVIDIA GPU 加速深度学习

随着人们对深度学习（ deep learning ， DL ）兴趣的日益浓厚，越来越多的用户在生产环境中使用 DL。由于 DL 需要强大的计算能力，开发人员正在利用 gpu 来完成他们的训练和推理工作。最近，为了更好地统一 Spark 上的 DL 和数据处理，作为的一项重大举措的一部分， GPU 成

overfit同步小助手 2024-10-01 02:03:49 0 收藏

spark任务优化参数整理

Hadoop_MRSpark_Corespark.executor.memory 默认值1gspark.executor.cores 默认值1核spark.executor.instances 默认值2个spark.yarn.am.memory 默认值512ms

overfit同步小助手 2024-09-29 18:03:23 0 收藏

【智能大数据分析 | 实验二】Spark实验：部署Spark集群

智能大数据分析实验二，Spark实验：部署Spark集群。理解Spark体系架构，学会部署Spark集群，能够配置Spark集群使用HDFS。最后在master上提交并运行Spark示例代码WordCount，上传至HDFS。

overfit同步小助手 2024-09-29 10:03:22 0 收藏

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

弹性分布式数据集（Resilient Distributed Dataset，RDD）：RDD 是 Spark 中的核心数据抽象，它是一个可并行计算的、可容错的、可读写的分布式数据集。Spark Core：Spark Core 是 Spark 的基础模块，提供了 RDD 的构建和操作功能，以及与底层

overfit同步小助手 2024-09-27 09:03:52 0 收藏

从数据仓库到数据飞轮：数据技术演进的探索与思考

在当今的数字化浪潮中，数据被视为一种极具价值的资源，类似于传统工业时代的石油，它为企业挖掘出深邃的洞察力，并成为决策过程中不可或缺的基石。随着技术的不断演进，数据管理的策略与架构也经历了显著的变革，从早期的数据仓库模式，逐步迈向集成化的数据中台架构，并朝着更加动态灵活的数据飞轮体系迈进。

overfit同步小助手 2024-09-27 07:03:43 0 收藏

11.6 Spark Streaming

(8)IDEA打开Streaming2.scala,设置自己的hdfs地址,可以使用以下代码查看在虚拟机,并且更改IDEA第7 12行的代码。（1）打开FileStreaming.scala文件，使用Maven打包，并且复制到app文件夹下。打开DStreaming.scala，修改19行的ip地址

overfit同步小助手 2024-09-26 19:04:07 0 收藏