Spark - overfit.cn

spark基本原理&UI界面解读

一级入口重点内容executors不同executors之间，是否存在负载倾斜不同executors之间，是否存在负载倾斜storage分布式数据集的缓存级别，内存，磁盘缓存比例SQL初步了解不同执行计划的执行时间，确实是否符合预期jobs初步感知不同jobs的执行时间，确实是否符合预期stage初

overfit同步小助手 2024-05-24 03:04:21 0 收藏

每天十分钟学会Spark【期末必看系列】

小白学大数据Spark编程第3课

overfit同步小助手 2024-05-24 03:04:11 0 收藏

实验五 Spark Streaming编程初级实践

注意，上面命令中，“localhost:9092 wordsender 3 5”是提供给KafkaWordProducer程序的4个输入参数，第1个参数“localhost:9092”是Kafka的Broker的地址，第2个参数“wordsender”是Topic的名称，我们在KafkaWordCo

overfit同步小助手 2024-05-24 02:03:35 0 收藏

HDFS常用操作以及使用Spark读取文件系统数据

在HDFS中的“/user/hadoop”目录下，创建子目录input，把HDFS中“/user/hadoop”目录下的test.txt文件，复制到“/user/hadoop/input”目录下；删除HDFS中“/user/hadoop”目录下的test.txt文件，删除HDFS中“/user/ha

overfit同步小助手 2024-05-24 01:04:03 0 收藏

Spark-机器学习（4）回归学习之逻辑回归

今天的文章，我们来学习我们回归中的逻辑回归，并带来简单案例，学习用法。希望大家能有所收获。同时，希望我的文章能帮助到每一个正在学习的你们。也欢迎大家来我的文章下交流讨论，共同进步。

overfit同步小助手 2024-05-23 23:04:11 0 收藏

Spark01 —— Spark基础

Spark基础为什么选择Spark?Spark基础配置Spark WordCount实例Spark运行架构Spark分区Spark算子Spark优化

overfit同步小助手 2024-05-23 22:04:38 0 收藏

Spark-机器学习（7）分类学习之决策树

今天的文章，我们来学习分类学习之决策树，并带来简单案例，学习用法。希望大家能有所收获。同时，希望我的文章能帮助到每一个正在学习的你们。也欢迎大家来我的文章下交流讨论，共同进步。

overfit同步小助手 2024-05-23 22:04:25 0 收藏

Spark-Scala语言实战（18）SQL-DataFrame方法

这篇文章我会带着大家学习Spark SQL中的DataFrame中show()，selectExpr()，select()，filter()/where，groupBy()，sort()6种方法。了解Spark SQL以及DataFrame。希望我的文章能帮助到大家，也欢迎大家来我的文章下交流讨论，

overfit同步小助手 2024-05-23 21:02:36 0 收藏

今天来认识一下无聊的spark和scala基础理知识

Spark 应用程序计算的整个过程可以调用不同的组件，如 Spark Streaming 的实时流处理应用、SparkSQL的即席查询、BlinkDB 的权衡查询、MLlib/MLBase 的机器学习、GraphX的图处理和SparkR的数学计算等。Scala 是一种纯粹的面向对象的语言，每个值都是

overfit同步小助手 2024-04-11 04:03:26 0 收藏

Spark SQL

Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame的编程抽象，并且可以充当分布式SQL查询引擎。

overfit同步小助手 2024-04-10 20:11:53 0 收藏

启动pyspark时：/usr/local/spark/bin/pyspark: 行 45: python: 未找到命令

启动pyspark时：/usr/local/spark/bin/pyspark: 行 45: python: 未找到命令的解决方法

overfit同步小助手 2024-04-10 18:03:55 0 收藏

IDEA软件中Scala配置安装教程（Spark计算环境搭建）

在com.atguigu.bigdata.spark.core 创建Scala class，命名为：Test ，选择object。在Java创建 new package，命名为：com.atguigu.bigdata.spark.core。print（“hello world”）进行验证，之后进行运

overfit同步小助手 2024-04-10 16:03:42 0 收藏

Spark的易用性：易用性工具和实践

1.背景介绍1. 背景介绍Apache Spark是一个开源的大规模数据处理框架，它提供了易用性工具和实践，以便开发人员可以更轻松地处理大量数据。Spark的易用性是其吸引人的特点之一，因为它允许开发人员在短时间内构建和部署大规模数据处理应用程序。在本文中，我们将探讨Spark的易用性工具和实践，并

overfit同步小助手 2024-04-10 09:03:40 0 收藏

spark和scala环境安装与部署，有手就行

source /etc/profile使环境变量生效，接着scala -version查看是否安装成功，出现画线版本号即为成功。解压安装包 tar -zxvf /opt/scala2.12.12.tgz -C /opt/9.查看spark是否安装成功返回主目录下输入spark-submit -

overfit同步小助手 2024-04-10 05:03:52 0 收藏

重生之开启大数据之路

有一个误区，Spark是基于内存的计算，所以快，这不是主要原因，要对数据做计算，必然得加载到内存，Hadoop也是如此，只不过Spark支持将需要反复用到的数据Cache到内存中，减少数据加载耗时，所以Spark跑机器学习算法比较在行（需要对数据进行反复迭代）。2.容易上手开发：Spark的基于RD

overfit同步小助手 2024-04-10 05:03:14 0 收藏

【Spark编程基础】实验一Spark编程初级实践（附源代码）

Line 类的第一个参数表示其位置，第二个参数表示另一个端点，Line 放缩的时候，其中点位置不变，长度按倍数放缩（注意，缩放时，其两个端点信息也改变了），另外，Line 的 move 行为影响了另一个端点，需要对move 方法进行重载。Circle 类第一个参数表示其圆心，也是其位置，另一个参数表

overfit同步小助手 2024-04-09 13:03:37 0 收藏

Spark-Scala语言实战（11）

今天开始的文章，我会带给大家如何在spark的中使用我们的键值对方法，今天学习键值对方法中的join,rightOuterJoin,leftOuterJoin三种方法。希望我的文章能帮助到大家，也欢迎大家来我的文章下交流讨论，共同进步。

overfit同步小助手 2024-04-09 00:03:50 0 收藏

Spark 安装（集群模式）

实际生产环境一般不会用本地模式搭建Spark。生产环境一般都是集群模式。下面就给出了安装集群模式的步骤。

overfit同步小助手 2024-04-08 21:03:43 0 收藏

Spark-Scala语言实战（13）

今天开始的文章，我会带给大家如何在spark的中使用我们的键值对方法，今天学习键值对方法中的fullOuterJoin，zip，combineByKeyy三种方法。希望我的文章能帮助到大家，也欢迎大家来我的文章下交流讨论，共同进步。

overfit同步小助手 2024-04-08 17:03:23 0 收藏

数据仓库的数据源与数据集成：实践与挑战

1.背景介绍数据仓库是企业和组织中的一个关键技术，它能够帮助企业和组织更有效地进行数据分析和决策。数据仓库的核心是数据源和数据集成。数据源是数据仓库中的基本数据来源，数据集成是将不同数据源集成到数据仓库中的过程。在本文中，我们将讨论数据仓库的数据源与数据集成的实践与挑战。我们将从以下几个方面进行讨论

overfit同步小助手 2024-04-08 14:03:52 0 收藏