大数据 Spark - overfit.cn

使用Spark清洗统计业务数据并保存到数据库中

1）打开SpringBoot项目：BigData-Etl-KongGuan创建StreamingContext，设置拉取流的时间，准备读取Kafka数据。本地开发时Spark配置使用local[*]方式，设置成本地运行模式，放到集群中运行时需要修改为Yarn模式。该分支是，这里会用到一个类Spark

overfit同步小助手 2024-03-26 18:03:48 0 收藏

Spark-Scala语言实战（2）（在IDEA中安装Scala，超详细配图）

对一个真正想深入学习Scala的人来说，今天我会给大家带来如何在IDEA中安装Scala，了解IDEA。望在本篇文章中，大家有所收获。也欢迎朋友们到评论区下一起交流学习，共同进步。

overfit同步小助手 2024-03-26 16:03:45 0 收藏

数据仓库概述

数据仓库是一种面向商务智能 (BI) 活动（尤其是分析）的数据管理系统，它仅适用于查询和分析，通常涉及大量的历史数据。在实际应用中，数据仓库中的数据一般来自应用日志文件和事务应用等广泛来源。数据仓库能够集中、整合多个来源的大量数据，借助数据仓库的分析功能，企业可从数据中获得宝贵的业务洞察，改善决策。

overfit同步小助手 2024-03-26 13:03:51 0 收藏

带你深入了解spark（重生之最牛逼最详细版）

MapReduce和Spark都是用于大数据处理的框架，但们在设计和功能上有一些区别。MapReduce是一种编程模型，用于处理大规模数据集的并行计算。它由Google提出，并被Apache Hadoop项目采纳。MapReduce将计算任务分为两个阶段：Map阶段和Reduce阶段。在Map阶段，

overfit同步小助手 2024-03-26 08:03:45 0 收藏

（超详细）Spark on Yarn安装配置

（超详细）Spark on Yarn安装配置，附有详细步骤，详细代码，注意事项提示

overfit同步小助手 2024-03-26 03:03:49 0 收藏

她看了这篇文章后竟让霸总怒甩八百万——Spark？？

Hadoop是目前应用最为广泛的分布式大数据处理框架，其具备可靠、高效、可伸缩等特点。Hadoop的核心组件是HDFS、MapReduce。MapReduce是一个分布式运算程序的编程框架，其核心功能为把用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在Hadoop集群上

overfit同步小助手 2024-03-25 23:03:46 0 收藏

【Spark Graphx 系列】Pregel PeriodicCheckpointer原理场景示例源码详解

[【Spark Graphx 系列】Pregel PeriodicCheckpointer原理场景示例源码详解]

overfit同步小助手 2024-03-25 22:03:28 0 收藏

hive sql 和 spark sql的区别

总体而言，Spark SQL 在性能和灵活性上相对于 Hive SQL 有一些优势，特别是在需要处理实时数据或采用交互式查询的场景中。然而，选择使用哪个工具还取决于具体的业务需求、数据规模和现有的基础设施。Hive Metastore 或其他元数据管理工具。

overfit同步小助手 2024-03-25 22:03:19 0 收藏

spark大数据技术与应用

但是，如果计算过程中涉及数据交换，Spark 也是会把 shuffle 的数据写磁盘的！有一个误区，Spark 是基于内存的计算，所以快，这不是主要原因，要对数据做计算，必然得加载到内存，Hadoop 也是如此，只不过 Spark 支持将需要反复用到的数据给 Cache 到内存中，减少数据加载耗时，

overfit同步小助手 2024-03-25 19:03:49 0 收藏

Hadoop与Spark的x86和ARM混合集群部署【环境搭建篇】

笔者在完成课程设计时，突然想到把大数据框架同时部署到PC端虚拟机以及ARM架构的Linux板上，这篇博客记录集群部署流程以及例程测试。运行环境：PC方面，使用两台Ubuntu 20.04 LTS Focal Fossa虚拟机ARM板子则使用香橙派5（RK3588S），系统是香橙派官方适配的Ubun

overfit同步小助手 2024-03-25 19:03:32 0 收藏

spark 数据序列化和内存调优（翻译）

由于大多数Spark计算的内存性质，Spark程序可能会被集群中的任何资源瓶颈：CPU、网络带宽或内存。大多数情况下，如果数据能放在内存，瓶颈是网络带宽，但有时，您还需要进行一些调整，例如以序列化形式存储RDD，以减少内存使用。本指南将涵盖两个主要主题：数据序列化，这对良好的网络性能至关重要，也可以

overfit同步小助手 2024-03-25 15:03:43 0 收藏

Spark Streaming 计算窗口的理解

spark streaming 窗口操作

overfit同步小助手 2024-03-25 12:03:23 0 收藏

Spark 核心API

这两个函数是 PairRDDFunctions 的匿名类中的函数，从 PairRDDFunctions 的名称中可以知道，PairRDDFunctions 是真的键值对的，也就是说 RDD 中的数据是键值对的时候，我们可以调 PairRDDFunctions 的函数，scala 这个功能好像类的被动

overfit同步小助手 2024-03-25 01:04:18 0 收藏

数据仓库保存历史数据方法之拉链表

在20170101~20170102期间内10003的job为mysql，在20170102~20170103期间内10003的job为mongodb，在20170103~30001231期间内10003的job为hive。个人所接触项目经验，如果极端采用某一种架构，最后数仓项目成功概率都很低，因此

overfit同步小助手 2024-03-25 00:03:36 0 收藏

数据架构的大数据处理：Hadoop 与 Spark 的结合

1.背景介绍大数据处理是现代数据科学和工程的核心技术，它涉及到处理海量、高速、多源、不确定性和不可靠性的数据。随着互联网、人工智能、物联网等领域的快速发展，大数据处理的重要性日益凸显。Hadoop 和 Spark 是目前最主流的大数据处理技术，它们各自具有不同的优势和应用场景。Hadoop 是一个开

overfit同步小助手 2024-03-24 21:03:48 0 收藏

Spark使用入门及案例

这里的命令行：将每行的字符串转换为相应的一个double数组，这样全部的数据将可以用一个二维的数组 RDD[Array[Double]]来表示了。该命令表明：spark加载文件是按行加载，每行为一个字符串，这样一个RDD[String]字符串数组就可以将整个文件存到内存中。查看，在shell命令行中

overfit同步小助手 2024-03-24 12:03:22 0 收藏

认识spark,Scala简介

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发的通用内存并行计算框架Spark得到了众多大数据公司的支持，这些公司包括Hortonworks、IBM、Intel、Clo

overfit同步小助手 2024-03-24 09:03:34 0 收藏

Spark 读取阿里云 MaxCompute数据源写阿里云OSS和华为云OBS

前情提要：当前Spark 版本为2.4.5写数据到阿里云OSS1、编写Spark 代码 - 写OSSpublic class SparkODPS2OSS4 { public static void main(String[] args) { SparkSession spark

overfit同步小助手 2024-03-24 08:03:52 0 收藏

入门spark和Scala

一，spark的介绍Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发的通用内存并行计算框架Spark得到了众多大数据公司的支持，这些公司包括Hortonworks、IBM

overfit同步小助手 2024-03-24 02:03:54 0 收藏

Spark.第二周

一旦发生灾难，需安装配置所需的运行环境，用数据备份介质(磁带或光盘) 恢复应用数据，手工逐笔或自动批量追补孤立数据，将终端用户通过通讯线路切换到备份系统，恢复业务运行。(1)运行速度快，如果数据由磁盘读取，速度是hadoop mapreduce的10倍以上，如果数据从内存读取，速度是hadoop m

overfit同步小助手 2024-03-23 05:03:48 0 收藏