Spark - overfit.cn

Spark SQL和Hive SQL 的对比

总结来说，Hive SQL更侧重于构建大数据仓库解决方案，而Spark SQL则在保持与Hive兼容的基础上，提升了查询性能并增加了更多高级功能，如支持更丰富的数据源连接、实时处理能力以及与Scala/Java/Python API的高度集成。用户可以根据实际需求选择或结合使用两者来满足不同的数据分

overfit同步小助手 2024-02-28 09:03:38 0 收藏

spark内存管理模型

本文主要粗略的介绍了spark使用的两种内存模型

overfit同步小助手 2024-02-28 05:03:32 0 收藏

spark基础

spark python java scala

overfit同步小助手 2024-02-28 01:03:34 0 收藏

Spark在AI与机器学习中的应用

1.背景介绍1. 背景介绍Apache Spark是一个开源的大规模数据处理框架，它可以处理批量数据和流式数据，并提供了一个易于使用的编程模型。Spark在AI和机器学习领域的应用非常广泛，它可以处理大量数据，提高训练和预测的速度，并提供了许多机器学习算法的实现。在本文中，我们将讨论Spark在AI

overfit同步小助手 2024-02-27 17:03:26 0 收藏

Spark大数据分析与实战笔记（第三章 Spark RDD 弹性分布式数据集-05）

Spark的任务调度是指Spark集群中的任务如何被调度和执行。Spark的任务调度主要基于两个概念：DAG和RDD。DAG是有向无环图（Directed Acyclic Graph）的简称，用来描述Spark作业中的任务依赖关系。在Spark中，作业被划分为多个阶段（Stage），每个阶段包含一组

overfit同步小助手 2024-02-27 06:03:52 0 收藏

2024.2.10 HCIA - Big Data笔记

MRS提供租户完全可控的一站式企业级大数据集群云服务,完全兼容开源接口,结合华为云计算,存储优势及大数据行业经验,为客户提供高性能,低成本,灵活易用的全栈大数据平台,为客户提供高性能、低成本、灵活易用的全栈大数据平台，轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件，

overfit同步小助手 2024-02-27 05:03:40 0 收藏

Spark编程实验六：Spark机器学习库MLlib编程

通过Spark机器学习库MLlib编程实验掌握基本的MLLib编程方法；掌握用MLLib解决一些常见的数据分析问题，包括数据导入、成分分析和分类和预测等。

overfit同步小助手 2024-02-27 00:03:24 0 收藏

macos安装local模式spark

c. 添加以下三条连接，使得spark能够找到对应的hadoop和相应的包。2. 打开sparkshell。然后执行并生效系统环境变量。然后执行并生效系统环境变量。可以看到很多输出，最后找到。b. 其次替换配置文件。

overfit同步小助手 2024-02-26 17:03:55 0 收藏

Spark大数据分析与实战笔记（第三章 Spark RDD 弹性分布式数据集-04）

设置检查点(checkPoint)方式，本质上是将RDD写入磁盘进行存储。当RDD在进行宽依赖运算时，只需要在中间阶段设置一个检查点进行容错，即通过Spark中的sparkContext对象调用setCheckpoint()方法，设置一个容错文件系统目录(如HDFS）作为检查点checkpoint，

overfit同步小助手 2024-02-25 18:03:46 0 收藏

hive/sparksql/presto 时区转换和时间类型转换

overfit同步小助手 2024-02-25 18:03:41 0 收藏

Spark On Hive原理和配置

包含Hive、MySQL等安装配置

overfit同步小助手 2024-02-25 17:03:28 0 收藏

Linux系统下Spark的下载与安装（pyspark运行示例）

最近需要完成数据课程的作业，因此实践了一下如何安装并配置好spark。

overfit同步小助手 2024-02-25 15:03:39 0 收藏

大数据本地环境搭建03-Spark搭建

需要提前部署好 Zookeeper/Hadoop/Hive 环境。

overfit同步小助手 2024-02-25 13:03:40 0 收藏

Spark中多分区写文件前可以不排序么

会根据partition或者bucket作为最细粒度来作为writer的标准，如果相邻的两条记录所属不同的partition或者bucket，则会切换writer，所以说如果不根据partition或者bucket排序的话，会导致。频繁的切换，这会大大降低文件的写入速度。目前 Spark中的实现中，

overfit同步小助手 2024-02-25 12:03:47 0 收藏

2024-02-21（Spark）

4040：是一个运行的Application在运行的过程中临时绑定的端口，用以查看当前任务的状态。4040被占用会顺延到4041，4042等。4040是一个临时端口，当前程序运行完成后，4040就会被注销。4040和Driver相关联，一个Driver启动起来，一个4040端口就被绑定起来，并可以查

overfit同步小助手 2024-02-25 11:03:40 0 收藏

Spark大数据分析与实战笔记（第三章 Spark RDD 弹性分布式数据集-03）

依赖关系分为窄依赖和宽依赖，窄依赖表示每个父RDD的分区最多只被一个子RDD的分区使用，宽依赖表示每个父RDD的分区可以被多个子RDD的分区使用。需要注意的是，RDD的分区函数是针对(Key,Value)类型的RDD，分区函数根据Key对RDD元素进行分区。RDD是Spark提供的最重要的抽象概念，

overfit同步小助手 2024-02-24 23:03:16 0 收藏

2024最新Spark核心知识点总结

转换(transformations) ：从已经存在的数据集中创建一个新的数据集，会创建一个新的RDD，例如map操作，会把数据集的每个元素传给函数处理，并生成一个新的RDD，常见如：Map,Filter,FlatMap,GroupByKey,ReduceByKey,Join,Sort,Partio

overfit同步小助手 2024-02-24 22:03:56 0 收藏

面试系列之《Spark》（持续更新...）

根据分区之间是否产生shuffle来确定宽依赖：上游一个分区的数据被打散到下游的多个分区，1:N窄依赖：上游一个分区的数据全部进入到下游的一个分区，1:1 or N:1。

overfit同步小助手 2024-02-23 22:03:21 0 收藏

Spark数据可视化：使用Spark与Tableau/Power BI进行数据可视化分析

通过Spark与Tableau/Power BI的集成，我们可以实现大数据的高效处理和直观的可视化分析。首先，我们需要明确在使用Tableau或Power BI进行数据可视化之前，Spark在整个数据处理流程中的角色。集成后，用户可以在Tableau中创建各种图表、仪表板，并利用Tableau的交互

overfit同步小助手 2024-02-23 13:03:16 0 收藏

分布式数据处理：Hadoop与Spark

1.背景介绍分布式数据处理：Hadoop与Spark1. 背景介绍随着数据的增长，传统的单机数据处理方法已经无法满足需求。分布式数据处理技术成为了一种必须的解决方案。Hadoop和Spark是两种非常流行的分布式数据处理技术，它们各自具有不同的优势和特点。本文将详细介绍Hadoop和Spark的核心

overfit同步小助手 2024-02-23 07:03:37 0 收藏