大数据 Spark - overfit.cn

pyspark 集成指定python版本

pyspark 指定python版本

overfit同步小助手 2023-07-31 13:04:20 0 收藏

大数据技术之Spark——Spark SQL

我们之前学习过hive，hive是一个基于hadoop的SQL引擎工具，目的是为了简化mapreduce的开发。由于mapreduce开发效率不高，且学习较为困难，为了提高mapreduce的开发效率，出现了hive，用SQL的方式来简化mapreduce：hive提供了一个框架，将SQL转换成ma

overfit同步小助手 2023-07-31 04:03:56 0 收藏

ALTER TABLE 分区操作-动态增加一级，多级分区，动态删除分区

1.8.5.6 ALTER TABLE 分区操作alter 分区操作包括增加分区和删除分区操作，这种分区操作在Spark3.x之后被支持，spark2.4版本不支持，并且使用时，必须在spark配置中加入spark.sql.extensions属性，其值为：org.apache.iceberg.sp

overfit同步小助手 2023-07-30 21:04:20 0 收藏

Spark数据倾斜及解决方法

Spark算子使用过程中遇到的数据倾斜问题及其解决方法，该数据倾斜也适用于其他计算引擎中

overfit同步小助手 2023-07-30 04:04:24 0 收藏

Pyspark 基础知识

Pyspark基础知识，包括Pyspark基本介绍，和Spark框架对比，WordCount执行流程，Pyspark执行原理等

overfit同步小助手 2023-07-25 22:05:18 0 收藏

云计算复习索引

云计算考试复习索引，动态更新

overfit同步小助手 2023-07-23 16:03:36 0 收藏

Spark 并行度

Spark中并行度设置

overfit同步小助手 2023-07-23 00:04:06 0 收藏

大数据Spark SparkSession的3种创建方式 Scala语言实现

overfit同步小助手 2023-07-23 00:03:50 0 收藏

SpringBoot 使用 Spark

overfit同步小助手 2023-07-22 22:03:51 0 收藏

[spark]spark资源分配

(1*4即4个节点共4个executor)*4=16，总cpu为32线程 8/16=1/2。每个executor内存数=该节点可用的总内存数/该节点executor数=16G/1=19G(这里因为executor num实在太小，所以随便选了16)但是一般cpu:内存=1:2-1:4，阿里云封装的时

overfit同步小助手 2023-07-21 04:04:24 0 收藏

Kafka传输数据到Spark Streaming通过编写程序java、scala程序实现操作

编写生产者代码// 此处配置的是kafka的端口 props . put("metadata.broker.list" , "localhost:9092");// 配置value的序列化类 props . put("serializer.class" , "kafka.serializer.Str

overfit同步小助手 2023-07-21 02:04:16 0 收藏

Spark 作业执行流程

overfit同步小助手 2023-07-19 00:04:18 0 收藏

大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

操作系统：Ubuntu 18.04Spark版本：2.4.0。

overfit同步小助手 2023-07-17 08:03:45 0 收藏

Spark SQL数据源：Hive表

将该文件数据导入表student1中，执行命令：spark.sql(“LOAD DATA INPATH ‘hdfs://master:9000/student/input/student.txt’ INTO TABLE student1”)将数据帧数据写入hive表，执行命令：studentDf.s

overfit同步小助手 2023-07-16 21:04:19 0 收藏

Spark Local环境搭建及测试

Spark单机版的搭建，常用于本地开发测试Spark使用Scala语言编写，运行在Java虚拟机（JVM）当中，故在安装前检查下本机的Java虚拟机环境。用命令查询当前Java版本是否为6以上。

overfit同步小助手 2023-07-14 22:04:39 0 收藏

【大数据基础】基于信用卡逾期数据的Spark数据处理与分析

本次实验采用pandas库对数据进行预处理。在实验中，不对信用卡和个人信贷额度的总余额、负债比率、未偿还贷款数量、逾期90天以上的次数这4个属性进行处理分析。（2）查看数据是否具有重复值，去除重复值。（3）查看各字段缺失率，缺失值以均值填充。（4）选取要研究的属性，删除不研究的属性。（5）保存文件到

overfit同步小助手 2023-07-13 22:04:42 0 收藏

spark-md5根据文件内容生成hash

overfit同步小助手 2023-07-11 04:04:18 0 收藏

SparkSql数组操作的N种骚气用法

总结一下sparksql（基于branch3.3）中 array操作相关的骚气用法，这恐怕是总结的最全的一篇了，哈哈~~

overfit同步小助手 2023-07-11 03:03:47 0 收藏

[机器学习、Spark]Spark MLlib机器学习

机器学习是一门多领域的交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机如何模拟或实现人类的学习行为，以获取新的知识或技能.重新组织已有的知识结构使之不断改善自身的性能。机器学习分为2类：（1）有监督学习通过已有的训练样本(即已知数据以及其对应的输出)训练得到一个

overfit同步小助手 2023-07-10 18:03:52 0 收藏

Spark心得体会

spark心得体会！！

overfit同步小助手 2023-07-09 08:04:07 0 收藏