Spark

Spark大数据分析与实战笔记（第二章 Spark基础-06）

Spark-Shell通常在测试和验证我们的程序时使用的较多，然而在生产环境中,通常会在IDEA开发工具中编写程序,然后打成Jar包，最后提交到集群中执行。下面讲解使用IDEA工具开发WordCount单词计数程序的相关步骤。Maven是一个项目管理工具，虽然我们刚才创建好了项目，但是却不能识别Sp

overfit同步小助手 2024-02-06 10:03:13 0 收藏

Spark与ApacheStorm集成与优化

1.背景介绍1. 背景介绍Apache Spark和Apache Storm是两个流行的大数据处理框架，它们各自具有不同的优势和应用场景。Apache Spark是一个快速、通用的大数据处理框架，支持批处理、流处理和机器学习等多种任务。Apache Storm是一个实时流处理框架，专注于处理高速、大

overfit同步小助手 2024-02-06 06:03:53 0 收藏

Spark与Hadoop对比

通常情况下，Apache Spark运行速度是要比Apache Hadoop MapReduce的运行速度要快，因为Spark是在继承了MapRudece分布式计算的基础上做了内存计算的优化，从而避免了MapReduce每个阶段都要数据写入磁盘的操作，这样就减少了很多低效的I/O操作。

overfit同步小助手 2024-02-05 22:03:53 0 收藏

Spark Graphx Pregel原理方法示例源码详解

Pregel计算模型是一个分布式计算模型，主要用于大规模图计算。它的基本思想是迭代计算和顶点为中心，并采用消息传递机制来实现并行计算。

overfit同步小助手 2024-02-05 05:03:52 0 收藏

Spark优化和问题

如： --jars "viewfs:///user/hadoop-shangchao/user_upload/hex-udf-0.1.jar,viewfs:///user/hadoop-shangchao/user_upload/zhuyong05_SafeDispatchUDF-1.0.jar"问

overfit同步小助手 2024-02-05 04:03:31 0 收藏

可以使用persist()方法将一个RDD标记为持久化。之所以说“标记为持久化”，是因为出现persist()语句的地方，并不会马上计算生成RDD并把它持久化，而是要等到遇到第一个Action操作触发真正计算以后，才会把计算结果进行持久化。中的data用来指定创建DataFrame对象的数据，可以是

overfit同步小助手 2024-02-04 11:03:25 0 收藏

Spark的内核调度

本文介绍了Spark的内核调度中的RDD的依赖,DAG有向无环图的形成和Stage的划分,以及Stage内部流程,还有Spark Shuffle的发展历程Hash Shuffle和Sort Shuffle,还包含了Job的调度流程,以及Spark RDD的并行度

overfit同步小助手 2024-02-04 06:03:46 0 收藏

并行计算与大规模数据处理：Hadoop与Spark

1.背景介绍大数据是指由于互联网、物联网等新兴技术的发展，数据量巨大、高速增长、多源性、不断变化的数据。大数据处理技术是指利用计算机科学技术，对大规模、高速、多源、不断变化的数据进行存储、处理和挖掘，以实现数据的价值化。并行计算是指同时处理多个任务或数据，以提高计算效率。大规模数据处理是指处理的数据

overfit同步小助手 2024-02-04 01:03:52 0 收藏

横扫Spark之 - RDD（Resilient Distributed Dataset）弹性分布式数据集

Spark中最基本的数据抽象 - RDD，既然叫弹性分布式数据集，那如何理解这个弹性、分布式、数据集最后RDD的5个主要特性分别是什么含义

overfit同步小助手 2024-02-03 23:03:49 0 收藏

Dbeaver，Hudi，Hive，Spark，Presto应用问题及解决措施梳理

overfit同步小助手 2024-02-03 09:03:50 0 收藏

Apache Spark 的基本概念和在大数据分析中的应用

此外，Spark 提供了丰富的编程接口（如 Scala、Java、Python 和 R），可以方便地进行开发和调试。因此，Spark 成为了大数据处理和分析的首选工具之一。Resilient Distributed Datasets (RDDs)：RDD 是 Spark 的核心数据结构，代表了分布式

overfit同步小助手 2024-02-02 22:03:50 0 收藏

Hadoop与Spark横向比较【大数据扫盲】

大数据场景下的数据库有很多种，每种数据库根据其数据模型、查询语言、一致性模型和分布式架构等特性，都有其特定的使用场景。以下是一些常见的大数据数据库：1. **NoSQL 数据库**：这类数据库通常用于处理大规模、非结构化的数据。它们通常提供简单的查询语言，并强调水平扩展和高可用性。例如：- **键值

overfit同步小助手 2024-02-02 22:03:41 0 收藏

olap/spark-tungsten：codegen

15721这一章没什么好说的，不再贴课程内容了。codegen和simd在工业界一般只会选一种实现。比如phothon之前用codegen，然后改成了向量化引擎。一般gen的都是weld IR/LLVM IR/当前语言，gen成C++的也要检查是不是有本地预编译版本，要不没法用。因为clickhou

overfit同步小助手 2024-02-02 16:03:39 0 收藏

基于Python+Spark的国产漫画推荐系统（爬虫+可视化大屏）

今天带来的是Spark 大数据爬虫漫画推荐系统，在Spark 大数据爬虫漫画推荐系统中，我们利用 Spark 强大的数据处理能力，从海量漫画数据中提取特征，建立推荐模型，为用户提供精准的漫画推荐服务。该系统的实现不仅可以提高漫画产品的质量和数量，还能满足用户的个性化需求，提高用户的满意度。此外，通过

overfit同步小助手 2024-02-01 16:03:38 0 收藏

explode与lateral view使用详解（spark及hive环境对比）

explode函数能够将array及map类型的数据炸开，实现一行变多行。

overfit同步小助手 2024-02-01 15:03:38 0 收藏

【spark】

Spark

overfit同步小助手 2024-02-01 10:03:36 0 收藏

Spark--一文了解WebUI

日常工作中经常用到sparkui来排查一些问题，有些东西需要经常搜索，网上的文章有写的很棒的，也有写的一言难尽的，这里参考了其他大佬的文章，自己整体梳理了一下，方便自己使用，也希望能帮助到大家～

overfit同步小助手 2024-02-01 09:04:34 0 收藏

全国职业院校技能大赛-大数据离线数据处理模块-指标计算

指标计算部分的难点就是多表查询的部分已经开窗函数的合理运用，因此熟练掌握HiveSQL中高级函数的部分是非常重要的

overfit同步小助手 2024-01-31 08:03:49 0 收藏

Java项目开发：基于spark的新闻推荐系统的设计与实现

随着我国媒体和网络技术的快速发展，新闻发布也不断优化我国媒体界，随着个外交商务所占比重越来越大，有助于我国社会经济的可持续性发展，文章主要讲述了新闻行业的发展分析，因为媒体的宣传能够带给我们重要的信息资源，新闻发布和评论管理是国家管理机制重要的一环，,面对这一世界性的新动向和新问题，新闻发布如何适应

overfit同步小助手 2024-01-31 05:03:49 0 收藏

大数据毕业设计选题推荐-市天气预警实时监控平台-Hadoop-Spark-Hive

随着社会经济的发展和科技的进步，城市天气预警实时监控平台已经成为公共安全领域的重要工具。这类平台运用大数据技术对气象数据进行采集、存储、处理、分析和可视化，可以及时发现和预测天气异常，防范和应对气象灾害，从而保障人们生命财产安全，提高社会运行效率。近年来，全球气候变化加剧，各种恶劣天气事件频繁发生，

overfit同步小助手 2024-01-31 02:03:47 0 收藏

Spark大数据分析与实战笔记（第二章 Spark基础-06）

Spark与ApacheStorm集成与优化

Spark与Hadoop对比

Spark Graphx Pregel原理方法示例源码详解

Spark优化和问题

Spark

Spark的内核调度

并行计算与大规模数据处理：Hadoop与Spark

横扫Spark之 - RDD（Resilient Distributed Dataset）弹性分布式数据集

Dbeaver，Hudi，Hive，Spark，Presto应用问题及解决措施梳理

Apache Spark 的基本概念和在大数据分析中的应用

Hadoop与Spark横向比较【大数据扫盲】

olap/spark-tungsten：codegen

基于Python+Spark的国产漫画推荐系统（爬虫+可视化大屏）

explode与lateral view使用详解（spark及hive环境对比）

【spark】

Spark--一文了解WebUI

全国职业院校技能大赛-大数据离线数据处理模块-指标计算

Java项目开发：基于spark的新闻推荐系统的设计与实现

大数据毕业设计选题推荐-市天气预警实时监控平台-Hadoop-Spark-Hive

作者榜

资讯小助手

内容小助手

Deephub

奕凯