大数据 Spark - overfit.cn

Java的Spark与流式大数据处理

1.背景介绍1. 背景介绍随着数据的增长和复杂性，传统的批处理技术已经无法满足现代大数据处理的需求。流式计算技术成为了处理实时大数据的主流方式。Apache Spark是一个开源的流式大数据处理框架，它可以处理批量数据和流式数据，并提供了丰富的数据处理功能。在本文中，我们将深入探讨Java的Spar

overfit同步小助手 2024-07-03 22:03:45 0 收藏

spark期末整理复习

DataFrame可以看作是分布式的Row对象的集合，在二维表数据集的每一列都带有名称和类型，这就是Schema元信息，这使得Spark框架可获取更多数据结构信息，从而对在DataFrame背后的数据源以及作用于DataFrame之上数据变换进行针对性的优化，最终达到提升计算效率。

overfit同步小助手 2024-07-03 10:03:51 0 收藏

spark方法总结

RDD：是一个容错的、只读的、可进行并行操作的数据结构，是一个分布在集群各个节点中的存放元素的集合。RDD的创建有3种不同的方法。第一种是将程序中已存在的Seq集合（如集合、列表、数组）转换成RDD。第二种是对已有RDD进行转换得到新的RDD，这两种方法都是通过内存中已有的集合创建RDD的。第三种是

overfit同步小助手 2024-07-03 08:03:38 0 收藏

一文了解Spark引擎的优势及应用场景

而对数据计算复杂（有推荐、分类、聚类算法场景）且时延要求高的场景，如迭代计算, 交互式计算, 流计算、有机器学习算法需求，图计算需求，且成本投入可以接受的情况下使用Spark SQL,Spark SQL读取的数据都是存入到内存中，因此对机器的内存有要求，且要求内存较大, 相对较贵.总结一下，hive

overfit同步小助手 2024-07-03 08:03:22 0 收藏

spark sql 的join调优

spark sql的join调优

overfit同步小助手 2024-07-03 06:03:50 0 收藏

Hadoop生态简介，Hive、Spark、HBase等

Hadoop生态全景介绍，Spark、Hive、HBase等

overfit同步小助手 2024-07-03 02:03:48 0 收藏

Spark 中的分桶分化

是 Spark 和 Hive 中用于优化任务性能的一种技术。在分桶桶（）中确定数据分区并防止数据混洗。根据一个或多个分桶列的值，将数据分配给预定义数量的桶。

overfit同步小助手 2024-07-02 18:03:16 0 收藏

Spark性能优化（第22天）

Spark性能优化是一个系统工程，涉及多个方面，包括开发调优、资源调优、数据倾斜调优、shuffle调优等。在Spark作业的执行过程中，任何一个环节的不足都可能导致性能瓶颈。因此，我们需要从多个角度出发，对Spark作业进行全面的优化。

overfit同步小助手 2024-07-02 09:03:23 0 收藏

Spark编程基础（Python版）实验三RDD编程

本文为Spark编程基础（python版）实验三提供了一个参考

overfit同步小助手 2024-07-02 03:03:39 0 收藏

自用云计算 | pyspark | 常见RDD算子及例子（云计算期末）

大学生期末复习主要包括云计算基本的概念常见的pyspark算子于对应的例子定义：云计算是一种通过互联网提供计算服务的技术。相比于传统计算，它的资源获取方式，从“买”变为“租”资源池化弹性伸缩安全可靠定义：RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是S

overfit同步小助手 2024-07-01 22:03:44 0 收藏

Spark与Hive的比较与优势

1.背景介绍1. 背景介绍Apache Spark和Hive都是大数据处理领域的重要工具。Spark是一个快速、高效的大数据处理框架，可以处理批量数据和流式数据。Hive则是一个基于Hadoop的数据仓库系统，可以处理大量结构化数据。在大数据处理领域，选择合适的工具是非常重要的。因此，了解Spark

overfit同步小助手 2024-07-01 15:03:18 0 收藏

Hive on spark源码编译与调优

一般生产环境NN和RM吃资源少的会单独配置，而工作节点会单独配置资源较多，例如Master节点配置为16核CPU、64G内存；Workder节点配置为32核CPU、128G内存，五台服务器如下所示hadoop100hadoop101hadoop102hadoop103hadoop104masterm

overfit同步小助手 2024-07-01 02:03:13 0 收藏

Apache Flink 和 Apache Spark详细介绍、优缺点、使用场景以及选型抉择？

Apache Flink 是一个用于分布式流处理和批处理的开源框架。它以实时数据处理和事件驱动的流处理著称，提供高吞吐量和低延迟的处理能力。

overfit同步小助手 2024-06-30 18:03:22 0 收藏

【spark数据处理】文件上传+文件读取+文件筛选

对多列进行分组，并对每组进行聚合计数,这段代码首先创建了一个SparkSession实例，然后创建了一个包含三列（"columnName1", "columnName2", "col"）的DataFrame。hadoop fs -put /data/wenjian1.csv /data //上传

overfit同步小助手 2024-06-29 11:03:16 0 收藏

基于Spark的学情日志数据分析可视化系统

overfit同步小助手 2024-06-29 08:03:33 0 收藏

学习Spark的数据清洗与预处理

1.背景介绍数据清洗和预处理是数据科学和机器学习的基础，它们有助于提高模型的准确性和性能。在大数据领域，Apache Spark是一个流行的分布式计算框架，它可以处理大量数据并提供高性能的数据处理能力。在本文中，我们将探讨如何使用Spark进行数据清洗和预处理。1. 背景介绍数据清洗和预处理是指对原

overfit同步小助手 2024-06-28 09:03:54 0 收藏

基于Spark3.3.4版本，实现Spark On Yarn 模式部署

企业中的海量数据都会使用大数据相关计算框架进行分析处理，在早期大数据处理中，我们会选择使用MapReduce分析处理海量数据，MapReduce存在计算慢、代码编写复杂、不支持流式计算及性能上的一些问题，Apache Spark计算框架的出现解决了MapReduce计算框架以上各种问题，Apache

overfit同步小助手 2024-06-28 09:03:48 0 收藏

头歌：Spark任务提交

这段脚本首先将 project.jar 复制到 /root 目录下，然后切换到 /opt/spark/dist/bin 目录。在 begin 和 end 之间，使用 spark-submit 命令提交 Spark 程序，其中 --master local 指定了本地模式，--class Studen

overfit同步小助手 2024-06-28 08:03:23 0 收藏

Spark与Hadoop的关系和区别

Hadoop是一个由Apache基金会维护的开源分布式数据处理框架。Hadoop分布式文件系统（HDFS）：用于存储大规模数据的分布式文件系统。Hadoop MapReduce：用于分布式数据处理的编程模型和框架。Hadoop最初是为批处理任务设计的，适用于对大规模数据进行批处理分析。Spark与H

overfit同步小助手 2024-06-28 05:03:41 0 收藏

spark独立集群搭建

overfit同步小助手 2024-06-28 01:03:42 0 收藏