大数据 Spark - overfit.cn

重生之开启大数据之路

有一个误区，Spark是基于内存的计算，所以快，这不是主要原因，要对数据做计算，必然得加载到内存，Hadoop也是如此，只不过Spark支持将需要反复用到的数据Cache到内存中，减少数据加载耗时，所以Spark跑机器学习算法比较在行（需要对数据进行反复迭代）。2.容易上手开发：Spark的基于RD

overfit同步小助手 2024-04-10 05:03:14 0 收藏

【Spark编程基础】实验一Spark编程初级实践（附源代码）

Line 类的第一个参数表示其位置，第二个参数表示另一个端点，Line 放缩的时候，其中点位置不变，长度按倍数放缩（注意，缩放时，其两个端点信息也改变了），另外，Line 的 move 行为影响了另一个端点，需要对move 方法进行重载。Circle 类第一个参数表示其圆心，也是其位置，另一个参数表

overfit同步小助手 2024-04-09 13:03:37 0 收藏

Spark-Scala语言实战（11）

今天开始的文章，我会带给大家如何在spark的中使用我们的键值对方法，今天学习键值对方法中的join,rightOuterJoin,leftOuterJoin三种方法。希望我的文章能帮助到大家，也欢迎大家来我的文章下交流讨论，共同进步。

overfit同步小助手 2024-04-09 00:03:50 0 收藏

Spark 安装（集群模式）

实际生产环境一般不会用本地模式搭建Spark。生产环境一般都是集群模式。下面就给出了安装集群模式的步骤。

overfit同步小助手 2024-04-08 21:03:43 0 收藏

Spark-Scala语言实战（13）

今天开始的文章，我会带给大家如何在spark的中使用我们的键值对方法，今天学习键值对方法中的fullOuterJoin，zip，combineByKeyy三种方法。希望我的文章能帮助到大家，也欢迎大家来我的文章下交流讨论，共同进步。

overfit同步小助手 2024-04-08 17:03:23 0 收藏

数据仓库的数据源与数据集成：实践与挑战

1.背景介绍数据仓库是企业和组织中的一个关键技术，它能够帮助企业和组织更有效地进行数据分析和决策。数据仓库的核心是数据源和数据集成。数据源是数据仓库中的基本数据来源，数据集成是将不同数据源集成到数据仓库中的过程。在本文中，我们将讨论数据仓库的数据源与数据集成的实践与挑战。我们将从以下几个方面进行讨论

overfit同步小助手 2024-04-08 14:03:52 0 收藏

使用Intellij idea编写Spark应用程序(Scala+SBT)

对Scala代码进行打包编译时，可以采用Maven，也可以采用SBT，相对而言，业界更多使用SBT。

overfit同步小助手 2024-04-08 14:03:25 0 收藏

学习了解Spark和Scala的理论知识以及安装部署

Spark 是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一。Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spark生态系统已经

overfit同步小助手 2024-04-08 09:03:39 0 收藏

Spark+Flink+Kafka环境配置

overfit同步小助手 2024-04-08 06:03:42 0 收藏

Spark-Scala语言实战（10）

今天开始的文章，我会带给大家如何在spark的中使用我们的RDD方法，今天学习RDD方法中的cartesian,subtract两种方法。希望我的文章能帮助到大家，也欢迎大家来我的文章下交流讨论，共同进步。

overfit同步小助手 2024-04-08 01:03:44 0 收藏

大数据处理与分析-spark

比如，Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase等。与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上，基于硬盘的运算也要快10倍以上。b.RDD提供了一种

overfit同步小助手 2024-04-07 20:03:23 0 收藏

【Spark精讲】Spark任务运行流程

Spark精讲，Spark任务运行流程，Spark任务执行流程，client模式，cluster模式，yarn-client模式，yarn-cluster模式，master参数

overfit同步小助手 2024-04-07 10:03:41 0 收藏

Spark 部署与应用程序交互简单使用说明

在本章中，我们介绍了开始使用Apache Spark所需的三个简单步骤:下载框架，熟悉Scala或PySpark交互shell，掌握高级Spark应用程序概念和术语。我们快速概述了使用转换和操作来编写Spark应用程序的过程，并简要介绍了使用Spark UI来检查所创建的job、stage和task

overfit同步小助手 2024-04-07 10:03:36 0 收藏

集群上运行pyspark

一、PySpark应用背景大规模结构化数据处理要求；scala编写函数对开发人员接受度低，python的高度简化代码完美契合数据处理过程；和scala处理无任何性能上的差异；二、PySpark原理Spark是什么：分布式（集群部署），高性能（基于内存可缓存磁盘），高可用的基于RDD（分区的不可变的弹

overfit同步小助手 2024-04-07 07:03:53 0 收藏

Spark Stage

Spark中的一个Stage只不过是物理执行计划其中的一个步骤，它是物理执行计划的一个执行单元。一个Job会被拆分为多组Task，每组任务被称为一个Stage，可以简单理解为MapReduce里面的Map Stage， Reduce Stage。Spark的Job中Stage之间会有依赖关系。可以利

overfit同步小助手 2024-04-07 01:03:22 0 收藏

spark-shell（pyspark）单机模式使用和编写独立应用程序

我的是spark-3.3.3版本，日志文件名字为log4j2.properties.template，每个版本的日志文件名字不太一样，具体的，要按照自己安装的版本的日志文件来，复制日志文件。spark有四种部署方式：Local，Standalone，Spark on Mesos，Spark on y

overfit同步小助手 2024-04-06 20:03:59 0 收藏

Spark编程实验一：Spark和Hadoop的安装使用

本实验主要目的是熟悉HDFS的基本使用方法，掌握使用Spark访问本地文件和HDFS文件的方法。

overfit同步小助手 2024-04-06 15:03:47 0 收藏

大数据分析与内存计算——Spark安装以及Hadoop操作——注意事项

请注意，这些命令需要在 Hadoop 集群的节点上运行，或者你需要通过 SSH 登录到集群中的一个节点。如果你的 Hadoop 集群配置了 Web 界面（如 Hue 或 Ambari），你也可以通过 Web 界面来上传文件和查看文件内容。读取HDFS系统文件“/user/hadoop/test.tx

overfit同步小助手 2024-04-06 12:03:52 0 收藏

【Spark编程基础】实验三RDD 编程初级实践(附源代码）

对于两个输入文件 A 和 B，编写 Spark 独立应用程序，对两个文件进行合并，并剔除其。名字，第二个是学生的成绩；编写 Spark 独立应用程序求出所有学生的平均成绩，并输出到。中重复的内容，得到一个新文件 C。下面是输入文件和输出文件的一个样例，供参考。每个输入文件表示班级学生某个学科的成绩，

overfit同步小助手 2024-04-06 11:03:33 0 收藏

我是标题党，都进来看看spark

选择安装路径，本文Scala的安装路径选择在非系统盘的“D:\Program Files (x86)\spark\scala\” ，单击“OK”按钮进入安装界面。进入欢迎界面，单击右下角的“Next”按钮后出现许可协议选择提示框，选择接受许可协议中的条款并单击右下角的“Next”按钮。① RDD：是

overfit同步小助手 2024-04-06 08:03:59 0 收藏