大数据技术之Spark——Spark SQL
我们之前学习过hive,hive是一个基于hadoop的SQL引擎工具,目的是为了简化mapreduce的开发。由于mapreduce开发效率不高,且学习较为困难,为了提高mapreduce的开发效率,出现了hive,用SQL的方式来简化mapreduce:hive提供了一个框架,将SQL转换成ma
ALTER TABLE 分区操作-动态增加一级,多级分区,动态删除分区
1.8.5.6 ALTER TABLE 分区操作alter 分区操作包括增加分区和删除分区操作,这种分区操作在Spark3.x之后被支持,spark2.4版本不支持,并且使用时,必须在spark配置中加入spark.sql.extensions属性,其值为:org.apache.iceberg.sp
Spark数据倾斜及解决方法
Spark算子使用过程中遇到的数据倾斜问题及其解决方法,该数据倾斜也适用于其他计算引擎中
Pyspark 基础知识
Pyspark基础知识,包括Pyspark基本介绍,和Spark框架对比,WordCount执行流程,Pyspark执行原理等
云计算复习索引
云计算考试复习索引,动态更新
Spark 并行度
Spark中并行度设置
大数据Spark SparkSession的3种创建方式 Scala语言实现
大数据Spark SparkSession的3种创建方式 Scala语言实现
SpringBoot 使用 Spark
SpringBoot 使用 Spark
[spark]spark资源分配
(1*4即4个节点共4个executor)*4=16,总cpu为32线程 8/16=1/2。每个executor内存数=该节点可用的总内存数/该节点executor数=16G/1=19G(这里因为executor num实在太小,所以随便选了16)但是一般cpu:内存=1:2-1:4,阿里云封装的时
Kafka传输数据到Spark Streaming通过编写程序java、scala程序实现操作
编写生产者代码// 此处配置的是kafka的端口 props . put("metadata.broker.list" , "localhost:9092");// 配置value的序列化类 props . put("serializer.class" , "kafka.serializer.Str
Spark 作业执行流程
Spark 作业执行流程
大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署
操作系统:Ubuntu 18.04Spark版本:2.4.0。
Spark SQL数据源:Hive表
将该文件数据导入表student1中,执行命令:spark.sql(“LOAD DATA INPATH ‘hdfs://master:9000/student/input/student.txt’ INTO TABLE student1”)将数据帧数据写入hive表,执行命令:studentDf.s
Spark Local环境搭建及测试
Spark单机版的搭建,常用于本地开发测试Spark使用Scala语言编写,运行在Java虚拟机(JVM)当中,故在安装前检查下本机的Java虚拟机环境。用命令查询当前Java版本是否为6以上。
【大数据基础】基于信用卡逾期数据的Spark数据处理与分析
本次实验采用pandas库对数据进行预处理。在实验中,不对信用卡和个人信贷额度的总余额、负债比率、未偿还贷款数量、逾期90天以上的次数这4个属性进行处理分析。(2)查看数据是否具有重复值,去除重复值。(3)查看各字段缺失率,缺失值以均值填充。(4)选取要研究的属性,删除不研究的属性。(5)保存文件到
spark-md5根据文件内容生成hash
spark-md5根据文件内容生成hash
SparkSql数组操作的N种骚气用法
总结一下sparksql(基于branch3.3) 中 array操作相关的骚气用法,这恐怕是总结的最全的一篇了,哈哈~~
[机器学习、Spark]Spark MLlib机器学习
机器学习是一门多领域的交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机如何模拟或实现人类的学习行为,以获取新的知识或技能.重新组织已有的知识结构使之不断改善自身的性能。机器学习分为2类:(1)有监督学习通过已有的训练样本(即已知数据以及其对应的输出)训练得到一个
Spark心得体会
spark心得体会!!
Spark Streaming + Kafka构建实时数据流
因为在这个例子中,数据是实时流式处理的,而不是一次处理一个批次的静态数据。流式数据的实时特性意味着数据不断更新,因此很难保持缓存的数据与最新的数据的一致性。所以在流处理中,更有效的性能优化方法是使用更高效的算法,并通过对流数据的精细控制来调整计算中的批大小和触发机制,而不是简单地使用缓存方法。这个是