Spark - overfit.cn

spark任务优化参数整理

Hadoop_MRSpark_Corespark.executor.memory 默认值1gspark.executor.cores 默认值1核spark.executor.instances 默认值2个spark.yarn.am.memory 默认值512ms

overfit同步小助手 2024-09-29 18:03:23 0 收藏

【智能大数据分析 | 实验二】Spark实验：部署Spark集群

智能大数据分析实验二，Spark实验：部署Spark集群。理解Spark体系架构，学会部署Spark集群，能够配置Spark集群使用HDFS。最后在master上提交并运行Spark示例代码WordCount，上传至HDFS。

overfit同步小助手 2024-09-29 10:03:22 0 收藏

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

弹性分布式数据集（Resilient Distributed Dataset，RDD）：RDD 是 Spark 中的核心数据抽象，它是一个可并行计算的、可容错的、可读写的分布式数据集。Spark Core：Spark Core 是 Spark 的基础模块，提供了 RDD 的构建和操作功能，以及与底层

overfit同步小助手 2024-09-27 09:03:52 0 收藏

从数据仓库到数据飞轮：数据技术演进的探索与思考

在当今的数字化浪潮中，数据被视为一种极具价值的资源，类似于传统工业时代的石油，它为企业挖掘出深邃的洞察力，并成为决策过程中不可或缺的基石。随着技术的不断演进，数据管理的策略与架构也经历了显著的变革，从早期的数据仓库模式，逐步迈向集成化的数据中台架构，并朝着更加动态灵活的数据飞轮体系迈进。

overfit同步小助手 2024-09-27 07:03:43 0 收藏

11.6 Spark Streaming

(8)IDEA打开Streaming2.scala,设置自己的hdfs地址,可以使用以下代码查看在虚拟机,并且更改IDEA第7 12行的代码。（1）打开FileStreaming.scala文件，使用Maven打包，并且复制到app文件夹下。打开DStreaming.scala，修改19行的ip地址

overfit同步小助手 2024-09-26 19:04:07 0 收藏

全国职业院校技能大赛（大数据赛项）-平台搭建Spark、Scala笔记

然后我们复制conf目录下的workers.template文件，workers.template文件是一个模板文件，用于配置Spark集群中的工作节点，我们一般是将其复制为workers文件进行配置系列工作节点的主机名或IP地址，每行一个。将hive中conf下面的hive-site.xml传输到

overfit同步小助手 2024-09-25 23:03:49 0 收藏

spark sql详解

Spark SQL 是一个功能强大的模块，旨在简化大规模数据处理，支持 SQL 查询和程序化的 DataFrame/Dataset 操作。它利用 Catalyst 优化器和 Tungsten 执行引擎来实现高效的查询性能，并且能够与广泛的数据源和大数据工具进行集成，适用于批处理、实时处理、数据仓库分

overfit同步小助手 2024-09-25 15:03:40 0 收藏

spark-scala使用与安装（一）

Scala是一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。

overfit同步小助手 2024-09-24 12:03:37 0 收藏

大数据技术进阶-spark的分布式join策略选择（附实例）

不论是shuffle join还是broadcast join，一旦数据分发完毕，理论上可以采用HJ、SMJ、NLJ这3种实现机制中的任意一种，完成Executors内部的数据关联。因此，两种分发模式，与三种实现机制，组合起来，共有6种分布式join策略。对于等值关联，spark sql优先考虑采用

overfit同步小助手 2024-09-24 05:03:51 0 收藏

Hive/Spark小文件解决方案(企业级实战)–参数和SQL优化

Spark读取Hive数据或文件如何提升速度的优化思路

overfit同步小助手 2024-09-24 05:03:32 0 收藏

11、Hive+Spark数仓环境准备

1）把hive-3.1.3.tar.gz上传到linux的/opt/software目录下2）解压hive-3.1.3.tar.gz到/opt/module/目录下面3）修改hive-3.1.3-bin.tar.gz的名称为hive4）修改/etc/profile.d/my_env.sh，添加环境变

overfit同步小助手 2024-09-21 20:03:36 0 收藏

Spark on YARN

Spark 在 YARN 上运行是一种常见的部署方式，特别是在企业环境中。这种方式充分利用了 YARN 的资源管理和调度能力，同时让 Spark 应用程序能够高效地运行在 Hadoop 集群上。如果你需要进一步的帮助或有关于具体配置的问题，请随时提问！

overfit同步小助手 2024-09-21 15:03:45 0 收藏

Spark-driver和executor启动过程

1、代码中根据SparkConf构建SparkContext2、创建任务调度器并启用3、StandaloneSchedulerBackend 和 CoarseGrainedSchedulerBackend 的 start() 启动4、DriverEndpoint 创建等待其他Endpoint发送

overfit同步小助手 2024-09-20 09:04:02 0 收藏

Spark的Web界面

已提交的作业不同阶段RDDs（弹性分布式数据集）Apache Spark UI中的"Executors"页面，该页面提供了关于Spark应用程序中执行器的详细信息。执行器是Spark应用程序中负责执行任务的进程。

overfit同步小助手 2024-09-20 02:03:35 0 收藏

Apache Uniffle 学习 —— ShuffleManagerGrpcService

ShuffleManager service 是启动在计算引擎的 Application Master 中，为这个 Application 处理 RSS 特定的逻辑。// 当 Fetch 数据失败时，汇报 fetch 失败，由 ShuffleManagerGrpcService 决定是否要进行 st

overfit同步小助手 2024-09-19 15:03:57 0 收藏

【大数据分析工具】使用Hadoop、Spark进行大数据分析

Hadoop是一个开源的分布式计算框架，最初由Apache基金会开发。Hadoop分布式文件系统（HDFS）：负责存储大规模数据，提供高吞吐量的数据访问。MapReduce：一种编程模型，用于处理和生成大规模数据集，运行在分布式集群上。YARN：Hadoop的资源管理器，用于调度系统资源，支持多种数

overfit同步小助手 2024-09-19 00:03:49 0 收藏

【大数据】MapReduce的“内存增强版”——Spark

在大数据时代，数据处理和分析成为企业竞争的重要手段。Hadoop作为大数据处理的基石，其核心组件MapReduce在众多场景中发挥了巨大作用。但是随着业务数据变多业务变复杂，MapReduce在处理速度、迭代计算等方面逐渐暴露出局限性

overfit同步小助手 2024-09-18 13:03:39 0 收藏

Hadoop完全分布式+spark（python）

这是因为在根据master主机克隆的同时把主机名也克隆了，这就导致slave1主机和slave2主机的主机名也为master，因此要进行配置，在slave1,slave2上分别执行。做完以上操作后系统的准备工作就做好了，但实际在操作主机时是不会真的在主机上操作，而通常是通过一个远程连接软件来操作主机

overfit同步小助手 2024-09-18 10:03:48 0 收藏

Hadoop实时数据处理框架Spark技术教程

SparkSQL是Apache Spark框架中的一个模块，它提供了用于处理结构化和半结构化数据的编程接口。SparkSQL不仅能够处理传统的SQL查询，还能够处理更复杂的数据类型，如JSON和XML。它通过DataFrame和Dataset API，使得开发者能够以面向对象的方式处理数据，同时保持

overfit同步小助手 2024-09-17 18:03:58 0 收藏

spark之时间序列预测(商品销量预测)

本案例使用前1913天的数据作为训练数据，来预测1914天到1941天的销量。以上数据下载后放入resources/advanced下，并在properties.properties中配置一下文件名和路径，以供程序读取和处理数据。2.模型的训练及预测利用python lightgbm进行操作，见ti

overfit同步小助手 2024-09-17 16:03:45 0 收藏