RDD的处理过程
Spark用scala语言实现了RDD的API,程序开发者可以通过调用API对RDD进行操作处理。下图为RDD的处理过程:RDD经过一些列的“转换”操作,每一次转换都会产生不同的RDD,以供给下一次“转换”操作使用,直到最后一个RDD经过“行动”操作才会被真正计算处理,并输出到外部数据源中,若中间的
Spark机器学习实战-使用Spark进行数据处理和数据转换
本文首先介绍了几种常见公开数据集,然后以加州住房数据集为例,分别介绍了如何利用Spark进行数据的下载、读取、探索分析、预处理、标准化等操作,最后简单总结了下不同类型的数据如何进行处理并转换成特征向量以供模型训练的方法。
Spark基础学习笔记24:Spark SQL数据源
使用各种数据源:parquet, json, hive表, jdbc
Spark机器学习实战-Spark的安装及使用
本文首先介绍了Spark的基础知识以及RDD和DataFrame这些核心概念,然后演示了如何下载Spark二进制版本并搭建一个本地单机模式下的开发环境,最后通过Python语言来编写第一个Spark程序。
SparkStreaming--scala
第1关:QueueStream本关任务:编写一个清洗QueueStream数据的SparkStreaming程序。 import java.text.SimpleDateFormat import java.util.Date import org.apache.spark.{Ha
【极简spark教程】spark聚合函数
spark进阶内容,手把手教你实现UDAF,实现自己的average聚合函数
【Spark】(task6)Spark RDD完成统计逻辑
文章目录一、Spark RDD二、使用RDD functions完成任务2的统计逻辑Reference一、Spark RDDRDD:resilient distributed dataset (RDD)每个spark程序都有一个driver program运行main函数,在cluster集群上执行
Spark SQL底层执行流程详解
本文目录一、Apache Spark二、Spark SQL发展历程三、Spark SQL底层执行原理四、Catalyst 的两大优化完整版传送门:Spark知识体系保姆级总结,五万字好文!一、Apache SparkApache Spark是用于大规模数据处理的统一分析引擎,基于内存计算,提高了在大
【源码解读】|SparkEnv源码解读
【源码解读】|SparkEnv源码解读导读SparkEnv 创建入口SparkEnv 架构组件前置创建SecurityManager安全管理器创建RPCEnv 环境创建SerializerManager序列化管理器创建BroadcastManager广播管理器创建mapOutputTracker创建
sbt安装配置与打包
一:安装配置1.下载安装包官网下载地址:sbt - Download将下载好的sbt-1.6.1.tgz解压到相应目录:/home/kyj/soft,这里我们使用版本为1.6.1,注意版本的选择2.解压安装包并放在/home/kyj/soft中:tar -zxvf sbt-1.6.1.tgz sbt
Spark集群搭建记录 | 云计算[CentOS7] | Scala Maven项目访问Spark实现单词计数
本文目录写在前面step1 下载Scala IDEstep2step3 Scala 下载step4 Scala 配置step5 创建scala项目step6 创建scala objectstep7 修改pom文件配置项目设置输入路径写在前面本系列文章索引以及一些默认好的条件在 传送门要想完成Spar
Spark流处理日志+SSM前端展示(详细)
Spark流处理日志加SSM前端展示
Spark集群搭建记录 | 云计算[CentOS7] | Spark配置
本文目录写在前面step1 Spark下载step2 修改环境变量~/.bashrc/etc/profile配置文件修改slavesspark-env.shstep3 配置slave节点集群启动web浏览器状态查看配置开机启动(可选)写在前面本系列文章索引以及一些默认好的条件在 传送门要想完成Spa
Spark项目实战-数据清洗
SparkSql单次处理Web日志,分析用户留存率
【源码解读】|SparkContext源码解读
本文针对于SparkContext 初始化总线,来阐述了Spark接收到任务时的一系列操作,让读者可以随时溯源
九十四、Spark-SparkSQL(整合Hive)
读取本地文件上传至Hive数据仓库
九十二、Spark-SparkSQL(统计电影平均分Top10)
Spark-SparkSQL(统计电影平均分Top10)
从一个sql引发的hive谓词下推的全面复盘及源码分析(上)
嗨,大家好,我是小萝卜算子。(微信公众号:数据仓库践行者。感谢关注)下面开始今天的正题Hive版本:hive-2.1.1经常听到**【谓词下推】**这个词,却从来没有对它进行全面的深入的研究,直到前些天,我们的数据产品跑过来跟我讨论 他写的一个sql,这个sql最终出现的结果并不是他想要的。看了具体
Spark任务提交源码
本文主要介绍了spark源码提交的流程,从SparkSubmit类main方法跟踪到spark主要实体driver和executor的创建过程,记录了整个过程中比较重要的节点的源码,以及对相关方法的功能实现进行了简要介绍。
Spark框架—RDD算式mapPartitionsWithIndex与filter的用法
@junit.Test def mapPartitionsWithIndex(): Unit ={ sc.parallelize(Seq(1,2,3,4,5,6),2) .mapPartitionsWithIndex((index,iter) =>{ print