Spark

spark 数据序列化和内存调优（翻译）

由于大多数Spark计算的内存性质，Spark程序可能会被集群中的任何资源瓶颈：CPU、网络带宽或内存。大多数情况下，如果数据能放在内存，瓶颈是网络带宽，但有时，您还需要进行一些调整，例如以序列化形式存储RDD，以减少内存使用。本指南将涵盖两个主要主题：数据序列化，这对良好的网络性能至关重要，也可以

overfit同步小助手 2024-03-25 15:03:43 0 收藏

Spark Streaming 计算窗口的理解

spark streaming 窗口操作

overfit同步小助手 2024-03-25 12:03:23 0 收藏

Spark 核心API

这两个函数是 PairRDDFunctions 的匿名类中的函数，从 PairRDDFunctions 的名称中可以知道，PairRDDFunctions 是真的键值对的，也就是说 RDD 中的数据是键值对的时候，我们可以调 PairRDDFunctions 的函数，scala 这个功能好像类的被动

overfit同步小助手 2024-03-25 01:04:18 0 收藏

数据仓库保存历史数据方法之拉链表

在20170101~20170102期间内10003的job为mysql，在20170102~20170103期间内10003的job为mongodb，在20170103~30001231期间内10003的job为hive。个人所接触项目经验，如果极端采用某一种架构，最后数仓项目成功概率都很低，因此

overfit同步小助手 2024-03-25 00:03:36 0 收藏

数据架构的大数据处理：Hadoop 与 Spark 的结合

1.背景介绍大数据处理是现代数据科学和工程的核心技术，它涉及到处理海量、高速、多源、不确定性和不可靠性的数据。随着互联网、人工智能、物联网等领域的快速发展，大数据处理的重要性日益凸显。Hadoop 和 Spark 是目前最主流的大数据处理技术，它们各自具有不同的优势和应用场景。Hadoop 是一个开

overfit同步小助手 2024-03-24 21:03:48 0 收藏

Spark使用入门及案例

这里的命令行：将每行的字符串转换为相应的一个double数组，这样全部的数据将可以用一个二维的数组 RDD[Array[Double]]来表示了。该命令表明：spark加载文件是按行加载，每行为一个字符串，这样一个RDD[String]字符串数组就可以将整个文件存到内存中。查看，在shell命令行中

overfit同步小助手 2024-03-24 12:03:22 0 收藏

认识spark,Scala简介

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发的通用内存并行计算框架Spark得到了众多大数据公司的支持，这些公司包括Hortonworks、IBM、Intel、Clo

overfit同步小助手 2024-03-24 09:03:34 0 收藏

Spark 读取阿里云 MaxCompute数据源写阿里云OSS和华为云OBS

前情提要：当前Spark 版本为2.4.5写数据到阿里云OSS1、编写Spark 代码 - 写OSSpublic class SparkODPS2OSS4 { public static void main(String[] args) { SparkSession spark

overfit同步小助手 2024-03-24 08:03:52 0 收藏

入门spark和Scala

一，spark的介绍Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发的通用内存并行计算框架Spark得到了众多大数据公司的支持，这些公司包括Hortonworks、IBM

overfit同步小助手 2024-03-24 02:03:54 0 收藏

Spark.第二周

一旦发生灾难，需安装配置所需的运行环境，用数据备份介质(磁带或光盘) 恢复应用数据，手工逐笔或自动批量追补孤立数据，将终端用户通过通讯线路切换到备份系统，恢复业务运行。(1)运行速度快，如果数据由磁盘读取，速度是hadoop mapreduce的10倍以上，如果数据从内存读取，速度是hadoop m

overfit同步小助手 2024-03-23 05:03:48 0 收藏

初学者，谈谈Spark。

这些应用程序来自Spark 的不同组件，如Spark Shell 或Spark Submit 交互式批处理方式、Spark Streaming 的实时流处理应用、Spark SQL 的即席查询、采样近似查询引擎BlinkDB 的权衡查询、MLbase/MLlib 的机器学习、GraphX 的图处理和

overfit同步小助手 2024-03-22 23:03:41 0 收藏

Spark内容分享(十二)：Spark 和 MapReduce 的区别及优缺点

Spark的DAGScheduler相当于一个改进版的MapReduce，如果计算不涉及与其他节点进行数据交换，Spark可以在内存中一次性完成这些操作，也就是中间结果无须落盘，减少了磁盘IO的操作。有一个误区，Spark是基于内存的计算，所以快，这不是主要原因，要对数据做计算，必然得加载到内存，H

overfit同步小助手 2024-03-22 18:03:45 0 收藏

superset连接Apache Spark SQL（hive）过程中的各种报错解决

overfit同步小助手 2024-03-22 13:03:39 0 收藏

1，Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎，是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一。

overfit同步小助手 2024-03-22 09:03:41 0 收藏

嬛嬛喊你学Spark、Scala的安装

目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目，Spark是基于内存计算的大数据并行计算框架。Spark得到了众多大数据公司的支持，这些公司包括Hortonworks、IBM、Intel、Clo

overfit同步小助手 2024-03-22 05:03:42 0 收藏

重生之我在湖科职学Spark

重生之我在湖科职跟着宇将军学习Spark，好学，爱学，麦克阿瑟将军也说好!!!

overfit同步小助手 2024-03-21 22:03:37 0 收藏

Spark概述

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。现在形成一个高速发展应用广泛的生态系统。Spark 主要有三个特点 :首先，高级 API 剥离了对集群本身的关注，Spark 应用开发者可以专注于应用所要做的计算本身。其次，Spark 很快，支持交互式计算和复杂算法。最后，Sp

overfit同步小助手 2024-03-21 21:03:42 0 收藏

spark概述与scala的安装

Spark基于内存式计算的分布式的统一化的数据分析引擎。

overfit同步小助手 2024-03-21 21:03:31 0 收藏

【Hadoop】在spark读取clickhouse中数据

方法会将获得到的数据返回到Driver端，所以，使用这两个方法时需要注意数据量，以免Driver发生。读取clickhouse数据库数据。中的所有数据都获取到，并返回一个。****获取指定字段的统计信息。类似，只不过将返回结构变成了。的形式返回一行或多行数据。

overfit同步小助手 2024-03-21 14:03:51 0 收藏

最简单的Hadoop+Spark大数据集群搭建方法，看这一篇就够啦

最近有小伙伴私信我，flink 软件安装在虚拟机上很简单，就是安装包解压即可，有没有 hadoop + spark 的安装文档呢？所以今天周六刚好不用上班，花了一天时间整理了一下自己现在使用集群的搭建过程，希望对各位小伙伴有帮助！Tips：以下是集群搭建过程的记录啦，word 文档和搭建好了的集群，

overfit同步小助手 2024-03-21 11:03:12 0 收藏