大数据 Spark - overfit.cn

Hago 的 Spark on ACK 实践

长期以来，Hago 都是在 IDC 里运行大数据任务，以支撑上面的许多产品，从 2022 年开始，Hago 开始将大数据业务迁移上云，并以 Spark on ACK 的形式来运行，本文主要针对迁移过程进行介绍。

overfit同步小助手 2023-12-31 19:03:10 0 收藏

Spark Structured Streaming使用教程

Structured Streaming是一个基于Spark SQL引擎的可扩展和容错流处理引擎，Spark SQL引擎将负责增量和连续地运行它，并在流数据继续到达时更新最终结果。

overfit同步小助手 2023-12-31 15:03:35 0 收藏

【头歌实训】Spark 完全分布式的安装和部署

把 evassh 服务器的 /usr/local 目录下的 spark 安装包通过 SCP 命令上传到 master 虚拟服务器的 /usr/local 目录下。Hadoop 集群在启动脚本时，会去启动各个节点，此过程是通过 SSH 去连接的，为了避免启动过程输入密码，需要配置免密登录。把 mast

overfit同步小助手 2023-12-31 09:03:23 0 收藏

万字解决Flink|Spark|Hive 数据倾斜

不管再出现分布式计算框架出现数据倾斜问题解决思路如下：很多数据倾斜的问题，都可以用和平台无关的方式解决，比如更好的数据预处理，异常值的过滤等。因此，解决数据倾斜的重点在于对数据设计和业务的理解，这两个搞清楚了，数据倾斜就解决了大部分了。关注这几个方面：数据预处理。解决热点数据：分而治之(第一次打散计

overfit同步小助手 2023-12-30 23:03:34 0 收藏

大数据实验实验六：Spark初级编程实践

overfit同步小助手 2023-12-30 16:03:38 0 收藏

Kafka与Spark案例实践

Kafka系统的灵活多变，让它拥有丰富的拓展性，可以与第三方套件很方便的对接。例如，实时计算引擎Spark。接下来通过一个完整案例，运用Kafka和Spark来合理完成。

overfit同步小助手 2023-12-30 15:03:43 0 收藏

【头歌实训】Spark 完全分布式的安装和部署（新）

把 master 节点的 spark 安装包分发到 slave1 节点和 slave2 节点（通过 scp 命令）。1.Standalone：Spark 自带的简单群资源管理器，安装较为简单，不需要依赖 Hadoop；接下来来查看下 slave1 节点连接密码，首先点击 slave1 命令行窗口，再

overfit同步小助手 2023-12-30 13:03:53 0 收藏

【Spark编程基础】第7章 Structured Streaming

Structured Streaming的关键思想是将实时数据流视为一张正在不断添加数据的表可以把流计算等同于在一个静态表上的批处理查询，Spark会在不断添加数据的无界输入表上运行计算，并进行增量查询在无界表上对输入的查询将生成结果表，系统每隔一定的周期会触发对无界表的计算并更新结果表。

overfit同步小助手 2023-12-30 13:03:22 0 收藏

2023_Spark_实验三十：测试Flume到Kafka

flume监控指定文件，shell+crontab模拟实时数据，kafka存储flume生产者的数据，使用kafkatools查看kafka主题

overfit同步小助手 2023-12-30 12:03:35 0 收藏

【详解】Spark数据倾斜问题由基础到深入详解-完美理解-费元星

spark hive数据倾斜，一文从浅到深，完美理解和解决

overfit同步小助手 2023-12-29 07:03:41 0 收藏

【Spark源码分析】Spark的RPC通信二-初稿

Spark的RPC通信

overfit同步小助手 2023-12-29 03:03:32 0 收藏

Spark计算框架

Spark的诞生背景Spark 2009年诞生的一个技术，诞生的主要原因是因为Hadoop大数据解决方案存在一些弊端MR程序是基于磁盘进行运算，因此导致MR程序计算效率底下。MR程序无法计算复杂的任务，如果想要实现复杂的计算逻辑，可能编写多个MR Job，其中后续的Job依赖于前一个Job的输出，但

overfit同步小助手 2023-12-28 21:03:46 0 收藏

Spark读写Hive

使用Spark读写分布式数据仓库Hive

overfit同步小助手 2023-12-28 19:03:39 0 收藏

2023_Spark_实验二十九：Flume配置KafkaSink

flume1.9.0 配置source为exec读取shell脚本模拟产生的实时数据，配置Sink为kafkaSink，配置channel为memoryChannel

overfit同步小助手 2023-12-28 10:03:33 0 收藏

大数据编程实验：RDD编程

针对问题(6)，考虑使用嵌套形式的数据结构来存储，从该数据集中映射出课程名称和分数，对课程出现次数用字典进行统计：(课程名称, (分数, 1))使用reduceByKey方法将分数和方法加，得到新的数据：(课程名称,(总分数,总人数))于两个输入文件A和B，编写Spark独立应用程序，对两个文件进行

overfit同步小助手 2023-12-28 10:03:22 0 收藏

利用Spark构建房价分析与推荐系统：基于58同城数据的大数据实践

利用58同城爬虫获取实时房价数据。使用Pandas进行数据清洗、处理，确保数据质量。利用Spark加速大数据分析，使用Echarts创建交互式可视化图表展示房价相关信息。基于Spark构建房价预测模型，通过机器学习算法实现对未来房价的预测。实现协同过滤推荐系统，为用户提供个性化的房屋推荐。设计合适的

overfit同步小助手 2023-12-28 06:03:40 0 收藏

基于spark对美国新冠肺炎疫情数据分析

2020年美国新冠肺炎疫情是全球范围内的一场重大公共卫生事件，对全球政治、经济、社会等各个领域都产生了深远影响。在这场疫情中，科学家们发挥了重要作用，积极探索病毒特性、传播机制和防控策略，并不断推出相关研究成果。本篇论文旨在使用 Spark 进行数据处理分析，以了解2020年美国新冠肺炎疫情在该国的

overfit同步小助手 2023-12-28 05:03:10 0 收藏

Spark Machine Learning进行数据挖掘的简单应用（兴趣预测问题）

使用SparkSession中的builder()构建后续设定appName 和master ，最后使用getOrCreate()完成构建// 定义spark对象val spark = SparkSession.builder().appName("兴趣预测").master("local[*]"

overfit同步小助手 2023-12-27 09:03:52 0 收藏

hive的引擎mapreduce、tez和spark对比

Hive 的执行引擎包括以下几种：Hive 最早使用的执行引擎是基于 Hadoop MapReduce 的。它将 Hive 查询转化为一系列的 MapReduce 任务进行并行执行。MapReduce 引擎适用于处理大规模数据集，具有良好的容错性和扩展性，但由于磁盘读写和中间结果的持久化，可能在性能

overfit同步小助手 2023-12-26 16:03:22 0 收藏

理解 Spark 写入 API 的数据处理能力

这张图解释了 Apache Spark DataFrame 写入 API 的流程。它始于对写入数据的 API 调用，支持的格式包括 CSV、JSON 或 Parquet。流程根据选择的保存模式（追加、覆盖、忽略或报错）而分岔。每种模式执行必要的检查和操作，例如分区和数据写入处理。流程以数据的最终写入

overfit同步小助手 2023-12-25 19:03:43 0 收藏