大数据 Spark - overfit.cn

Apache Spark: 大规模数据处理的统一分析引擎

Apache Spark是一个用于大规模数据处理的开源统一分析引擎,由加州大学伯克利分校AMPLab开发并于2010年开源。作为一个通用的大数据处理平台,Spark提供了高性能的内存计算能力和丰富的数据处理API,支持批处理、流处理、机器学习、图计算等多种应用场景。自开源以来,Spark迅速成为大数

overfit同步小助手 2024-10-05 13:03:57 0 收藏

大数据技术：Hadoop、Spark与Flink的框架演进

与Hadoop相比，Spark的改进主要有两点：● 易用性：比起MPI，MapReduce模型更友好，但仍然不够方便，因为并不是所有计算任务都可以简单拆分成map和reduce，有可能为了解决一个问题，要设计多个MapReduce任务，任务之间相互依赖，整个程序非常复杂，导致代码的可读性差。Spar

overfit同步小助手 2024-10-05 03:04:22 0 收藏

数据仓库系列19：数据血缘分析在数据仓库中有什么应用?

数据血缘分析（Data Lineage Analysis）是一种追踪、记录和可视化数据在整个生命周期中流动和转换过程的技术。它就像是为数据建立了一个详细的"族谱"，记录了数据从产生、存储、处理到最终使用的每一个环节。

overfit同步小助手 2024-10-04 21:06:43 0 收藏

hadoop+spark+hive基于django的民族服饰数据分析系统的设计与实现(源码+爬虫可视化展示+调试+讲解)

随着网络科技的发展，利用大数据分析对民族服饰进行管理已势在必行；该平台将帮助企业更好地理解服饰市场的趋势，优化服装款式，提高服装的质量。本文讲述了基于python语言开发，后台数据库选择MySQL进行数据的存储。该软件的主要功能是进行服饰数据分析。主要包括个人中心、用户管理、民族服饰管理、数据统计管

overfit同步小助手 2024-10-03 19:04:06 0 收藏

20240901 大数据流式计算 - SPRAK3.5与FLINK1.19（入门）

sourceflink SQLsourceflink SQLsourcesourceN/AsinkfileappendsinkkafkaAppend,基于SQL语义自动判断：1. 当simple source to sink ETL, append mode, 可以写KAFKA2. 当agg，有u

overfit同步小助手 2024-10-03 10:04:04 0 收藏

Spark与Kafka进行连接

在Java中使用Spark与Kafka进行连接，你可以使用Spark Streaming来处理实时流数据。以下是一个简单的示例，展示了如何使用Spark Streaming从Kafka读取数据并进行处理。

overfit同步小助手 2024-10-03 02:03:12 0 收藏

WSL + Vscode一站式搭建Hadoop伪分布式 + Spark环境

使用WSL + VSCODE 快速搭建 Hadoop 和 Spark 环境

overfit同步小助手 2024-10-01 15:03:21 0 收藏

Spark 和 NVIDIA GPU 加速深度学习

随着人们对深度学习（ deep learning ， DL ）兴趣的日益浓厚，越来越多的用户在生产环境中使用 DL。由于 DL 需要强大的计算能力，开发人员正在利用 gpu 来完成他们的训练和推理工作。最近，为了更好地统一 Spark 上的 DL 和数据处理，作为的一项重大举措的一部分， GPU 成

overfit同步小助手 2024-10-01 02:03:49 0 收藏

spark任务优化参数整理

Hadoop_MRSpark_Corespark.executor.memory 默认值1gspark.executor.cores 默认值1核spark.executor.instances 默认值2个spark.yarn.am.memory 默认值512ms

overfit同步小助手 2024-09-29 18:03:23 0 收藏

【智能大数据分析 | 实验二】Spark实验：部署Spark集群

智能大数据分析实验二，Spark实验：部署Spark集群。理解Spark体系架构，学会部署Spark集群，能够配置Spark集群使用HDFS。最后在master上提交并运行Spark示例代码WordCount，上传至HDFS。

overfit同步小助手 2024-09-29 10:03:22 0 收藏

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

弹性分布式数据集（Resilient Distributed Dataset，RDD）：RDD 是 Spark 中的核心数据抽象，它是一个可并行计算的、可容错的、可读写的分布式数据集。Spark Core：Spark Core 是 Spark 的基础模块，提供了 RDD 的构建和操作功能，以及与底层

overfit同步小助手 2024-09-27 09:03:52 0 收藏

从数据仓库到数据飞轮：数据技术演进的探索与思考

在当今的数字化浪潮中，数据被视为一种极具价值的资源，类似于传统工业时代的石油，它为企业挖掘出深邃的洞察力，并成为决策过程中不可或缺的基石。随着技术的不断演进，数据管理的策略与架构也经历了显著的变革，从早期的数据仓库模式，逐步迈向集成化的数据中台架构，并朝着更加动态灵活的数据飞轮体系迈进。

overfit同步小助手 2024-09-27 07:03:43 0 收藏

11.6 Spark Streaming

(8)IDEA打开Streaming2.scala,设置自己的hdfs地址,可以使用以下代码查看在虚拟机,并且更改IDEA第7 12行的代码。（1）打开FileStreaming.scala文件，使用Maven打包，并且复制到app文件夹下。打开DStreaming.scala，修改19行的ip地址

overfit同步小助手 2024-09-26 19:04:07 0 收藏

全国职业院校技能大赛（大数据赛项）-平台搭建Spark、Scala笔记

然后我们复制conf目录下的workers.template文件，workers.template文件是一个模板文件，用于配置Spark集群中的工作节点，我们一般是将其复制为workers文件进行配置系列工作节点的主机名或IP地址，每行一个。将hive中conf下面的hive-site.xml传输到

overfit同步小助手 2024-09-25 23:03:49 0 收藏

spark sql详解

Spark SQL 是一个功能强大的模块，旨在简化大规模数据处理，支持 SQL 查询和程序化的 DataFrame/Dataset 操作。它利用 Catalyst 优化器和 Tungsten 执行引擎来实现高效的查询性能，并且能够与广泛的数据源和大数据工具进行集成，适用于批处理、实时处理、数据仓库分

overfit同步小助手 2024-09-25 15:03:40 0 收藏

spark-scala使用与安装（一）

Scala是一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。

overfit同步小助手 2024-09-24 12:03:37 0 收藏

大数据技术进阶-spark的分布式join策略选择（附实例）

不论是shuffle join还是broadcast join，一旦数据分发完毕，理论上可以采用HJ、SMJ、NLJ这3种实现机制中的任意一种，完成Executors内部的数据关联。因此，两种分发模式，与三种实现机制，组合起来，共有6种分布式join策略。对于等值关联，spark sql优先考虑采用

overfit同步小助手 2024-09-24 05:03:51 0 收藏

Hive/Spark小文件解决方案(企业级实战)–参数和SQL优化

Spark读取Hive数据或文件如何提升速度的优化思路

overfit同步小助手 2024-09-24 05:03:32 0 收藏

11、Hive+Spark数仓环境准备

1）把hive-3.1.3.tar.gz上传到linux的/opt/software目录下2）解压hive-3.1.3.tar.gz到/opt/module/目录下面3）修改hive-3.1.3-bin.tar.gz的名称为hive4）修改/etc/profile.d/my_env.sh，添加环境变

overfit同步小助手 2024-09-21 20:03:36 0 收藏

Spark on YARN

Spark 在 YARN 上运行是一种常见的部署方式，特别是在企业环境中。这种方式充分利用了 YARN 的资源管理和调度能力，同时让 Spark 应用程序能够高效地运行在 Hadoop 集群上。如果你需要进一步的帮助或有关于具体配置的问题，请随时提问！

overfit同步小助手 2024-09-21 15:03:45 0 收藏