0


每天十分钟学会Spark【期末必看系列】

**Spark编程基础 **[参考Spark大数据技术与应用(第二版)]

今天我们就学习过程中常见的问题进行解答

我们先来聊一聊vm无法连接Xshell的原因:

首先我们通过ping来判断是哪一类问题:
ping 主机
ping 网关
ping 外网

一:虚拟机宿主机互ping不通

二:虚拟机对宿主机ping不通,但能ping外网
三:虚拟机对宿主机ping通,不能ping外网

问题一:防火墙未关闭

解决方法:关闭防火墙

问题二:网卡未生效

输入命令 ifconfig,若输出的网卡信息不含inet [ip地址],则说明网卡未生效
解决方法:修改配置文件:/etc/sysconfig/network-scripts/ifcfg-[网卡名]

问题三:虚拟网卡VMnet8

查看是否禁止了网络连接
解决方法:打开网络连接显示已启用

问题四:网关和DNS设置问题

解决方法:

问题五:网络模式为仅Host-only,或为Bridge但分配了不合法的IP

解决方法:

连接上了Xshell后我们要查看进程jps然后打开spark-shell
关键代码:
hadoop-daemon.sh start namenode
hadoop-daemon.sh start datanode

接着我们来讲讲另一个问题:

打jar包

(已上传参考代码,待审核中。。。)

方法一:

步骤一:在IDEA上写文件

步骤二:点击Project Structure里的Artifacts
(别忘了,关键)

步骤三:点击Build里的Build Artifacts里的unnamed里的Build

【PS:区分包名,类名,jar包名】

步骤四:把jar包上传到Xshell上

完成后查看即可

方法二:

步骤一:创建maven项目

步骤二:配置maven项目
(pom.txt文件已上传,待审核中。。。)
File->setting->

步骤三:路径问题,本地或者集群

步骤四:Spark提交jar包
spark-submit --class com.exmple.Main test1.jarb

最后,让我们来巩固一下近期学习的方法

一、SparkRDD

RDD是一个容错的、只读的、可进行并行操作的数据结构,是一个分布在集群各个节点中的存放元素的集合。

RDD的创建有3种不同的方法:

第一种是将程序中已存在的Seq集合(如集合、列表、数组)转换成RDD。
第二种是对已有RDD进行转换得到新的RDD。
(这两种方法都是通过内存中已有的集合创建RDD的)
第三种是直接读取外部存储系统的数据创建RDD。

创建RDD:

【内部】makeRDD()、parallelize()
【外部】textFile()

显示RDD中的元素(即输出):

rdd.collect().foreach(println)

对RDD中的元素进行filter()过滤:

filter()方法是一种转换操作,用于过滤RDD中的元素。

对RDD中的元素进行groupByKey()分组:

groupByKey()方法用于对具有相同键的值进行分组,可以对同一组的数据进行计数、求和等操作

对RDD中的元素进行reduceByKey()合并:

reduceByKey()方法用于合并具有相同键的值,作用对象是键值对,并且只对键的值进行处理。

对RDD中的元素进行union()合并:

union()方法是一种转换操作,用于将两个RDD合并成一个,不进行去重操作,而且两个RDD中每个元素中的值的个数、数据类型需要保持一致。

对RDD中的元素进行distinct()去重:

distinct()方法是一种转换操作,用于RDD的数据去重,去除两个完全相同的元素,没有参数。

val distinctRDD = rdd.distinct()

对RDD中的元素进行subtract()删除:

subtract()方法用于将前一个RDD中在后一个RDD出现的元素删除,可以认为是求补集的操作,返回值为前一个RDD去除与后一个RDD相同元素后的剩余值所组成的新的RDD。

distinct()方法和subtract()方法的区别:
distinct是不同的意思,即RDD中相同的去掉,不同的留下。
subtract是减去的意思,两个RDD求某一RDD的范围内的补集。

对RDD中的元素进行聚合:

val sum = rdd.reduce((x, y) => x + y)

对RDD中的元素进行排序:

val sortedRDD = rdd.sortBy(x => x, ascending = false)

对两个RDD进行笛卡尔积操作:

val cartesianRDD = rdd1.cartesian(rdd2)

使用join()方法连接两个RDD:

对两个RDD进行内连接。

val rdd1 = sc.parallelize(List(('a',1),('b',2),('c',3)))
val rdd2 = sc.parallelize(List(('a',1),('d',4),('e',5)))
val j_rdd = rdd1.join(rdd2)

使用rightOuterJoin()方法连接两个RDD:

对两个RDD进行连接操作,确保第二个RDD的键必须存在(右外连接)。

val right_join = rdd1.rightOuterJoin(rdd2)

使用leftOuterJoin()方法连接两个RDD:

对两个RDD进行连接操作,确保第一个RDD的键必须存在(左外连接)。

val left_join = rdd1.leftOuterJoin(rdd2)

使用fullOuterJoin()方法连接两个RDD:

对两个RDD进行全外连接。

val full_join = rdd1.fullOuterJoin(rdd2)

使用zip()方法组合两个RDD:

zip()方法用于将两个RDD组合成键值对RDD,要求两个RDD的分区数量以及元素数量相同,否则会抛出异常。

var rdd1 = sc.makeRDD(1 to 5,2)
var rdd2 = sc.makeRDD(Seq("A","B","C","D","E"),2)
rdd1.zip(rdd2).collect
rdd2.zip(rdd1).collect

使用take()方法查询某几个值:

take(N)方法用于获取RDD的前N个元素,返回数据为数组。

val data = sc.parallelize(1 to 10)
data.take(5)

计算RDD中元素的数量:

val count = rdd.count()

对RDD中的元素进行缓存:

rdd.cache()

将RDD保存到文件:

rdd.saveAsTextFile("path/to/output")

更详细请参考上一篇文章(都是精华。。。)

二、Spark SQL

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象结构叫做DataFrame的数据模型(即带有Schema信息的RDD),Spark SQL作为分布式SQL查询引擎,让用户可以通过SQL、DataFrames API和Datasets API三种方式实现对结构化数据的处理。

创建DataFrame的两种基本方式:

已存在的RDD调用toDF()方法转换得到DataFrame。
通过Spark读取数据源直接创建DataFrame。

创建DataFrame:

显示DataFrame的结构:

zy.printSchema()

显示DataFrame的内容:

zy.show()

读文件:

show():显示前20条记录
show(numRows:Int):显示numRows条记录
show(truncate:Boolean):是否最多只显示20个字符,默认为true
show(numRows:Int,truncate:Boolean):显示numRows条记录并设置过长字符串的显示格式

first():获取第一条记录
head(n:Int):获取前n条记录
take(n:Int):获取前n条记录
takeAsList(n:Int):获取前n条记录,并以列表的形式展现

collect()/collectAsList():获取所有数据

定义样例类zy

读取movies.dat数据创建RDD movieData

将movieData转换成DataFrame

where()/filter():条件查询
select()/selectExpr()/col()/apply():查询指定字段的数据信息
limit():查询前n条记录
order By()/sort():排序查询
groupBy():分组查询
join():连接查询

select():获取指定字段值

selectExpr():对指定字段进行特殊处理
spark.udf.register("replace",(x:String) => {
        x match{
                case "M" => 0
                case "F" => 1
        }
})
val userSelectExpr = user.selectExpr(
        "userId","replace(gender) as sex","age")
userSelectExpr.show(3)

max(colNames:String):获取分组指定字段或所有的数值类型字段的最大值
min(colNames:String):获取分组指定字段或所有的数值类型字段的最小值
mean(colNames:String):获取分组指定字段或所有的数值类型字段的平均值
sum(colNames:String):获取分组指定字段或所有的数值类型字段的值的和
count():获取分组中的元素个数

join(right:DataFrame):返回两个表的笛卡尔积
join(right:DataFrame,joinExprs:Column):根据两表中相同的某个字段进行连接
join(right:DataFrame,joinExprs:Column,joinType:String):根据两表相同的某个字段进行连接并指定连接类型

标签: 运维 spark 大数据

本文转载自: https://blog.csdn.net/weixin_75219728/article/details/138747675
版权归原作者 咿呀咿呀奕 所有, 如有侵权,请联系我们删除。

“每天十分钟学会Spark【期末必看系列】”的评论:

还没有评论