SparkUI超详细解释(2)——Stages
推测的原因是这个stage对应的是以下面的代码,上下两个shuffle的key相同又有一次union all,所以可以放在一个stage中,虽然task数量是4000,但是上面的shuffle数据是分在2000个task中,下面的是另一个2000task中,并不会两者合在一起hash到4000个ta
Scala 环境搭建安装配置
Scala环境搭建安装配置
关于Java连接Hive,Spark等服务的Kerberos工具类封装
关于Java连接Hive,Spark等服务的Kerberos工具类封装
hive on spark 时,executor和driver的内存设置,yarn的资源设置
hive on spark 时,executor和driver的内存设置,yarn的资源设置。
pyspark 集成指定python版本
pyspark 指定python版本
大数据技术之Spark——Spark SQL
我们之前学习过hive,hive是一个基于hadoop的SQL引擎工具,目的是为了简化mapreduce的开发。由于mapreduce开发效率不高,且学习较为困难,为了提高mapreduce的开发效率,出现了hive,用SQL的方式来简化mapreduce:hive提供了一个框架,将SQL转换成ma
ALTER TABLE 分区操作-动态增加一级,多级分区,动态删除分区
1.8.5.6 ALTER TABLE 分区操作alter 分区操作包括增加分区和删除分区操作,这种分区操作在Spark3.x之后被支持,spark2.4版本不支持,并且使用时,必须在spark配置中加入spark.sql.extensions属性,其值为:org.apache.iceberg.sp
Spark数据倾斜及解决方法
Spark算子使用过程中遇到的数据倾斜问题及其解决方法,该数据倾斜也适用于其他计算引擎中
Pyspark 基础知识
Pyspark基础知识,包括Pyspark基本介绍,和Spark框架对比,WordCount执行流程,Pyspark执行原理等
云计算复习索引
云计算考试复习索引,动态更新
Spark 并行度
Spark中并行度设置
大数据Spark SparkSession的3种创建方式 Scala语言实现
大数据Spark SparkSession的3种创建方式 Scala语言实现
SpringBoot 使用 Spark
SpringBoot 使用 Spark
[spark]spark资源分配
(1*4即4个节点共4个executor)*4=16,总cpu为32线程 8/16=1/2。每个executor内存数=该节点可用的总内存数/该节点executor数=16G/1=19G(这里因为executor num实在太小,所以随便选了16)但是一般cpu:内存=1:2-1:4,阿里云封装的时
Kafka传输数据到Spark Streaming通过编写程序java、scala程序实现操作
编写生产者代码// 此处配置的是kafka的端口 props . put("metadata.broker.list" , "localhost:9092");// 配置value的序列化类 props . put("serializer.class" , "kafka.serializer.Str
Spark 作业执行流程
Spark 作业执行流程
spark12-13-14
触发一次Action,并且将附带的统计指标计算出来,可以使用Accumulator进行处理,Accumulator的本质数一个实现序列化接口class,每个Task都有自己的累加器,避免累加的数据发送冲突。在一个Executor可以同时运行多个Task,如果多个Task使用同一个共享的单例对象,如果
大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署
操作系统:Ubuntu 18.04Spark版本:2.4.0。
Spark SQL数据源:Hive表
将该文件数据导入表student1中,执行命令:spark.sql(“LOAD DATA INPATH ‘hdfs://master:9000/student/input/student.txt’ INTO TABLE student1”)将数据帧数据写入hive表,执行命令:studentDf.s
Spark Local环境搭建及测试
Spark单机版的搭建,常用于本地开发测试Spark使用Scala语言编写,运行在Java虚拟机(JVM)当中,故在安装前检查下本机的Java虚拟机环境。用命令查询当前Java版本是否为6以上。