一、实验目的
(1)熟悉Spark的RDD基本操作及键值对操作;
(2)熟悉使用RDD编程解决实际具体问题的方法。
二、实验平台
操作系统:Ubuntu16.04
Spark版本:2.1.0
三、实验内容和要求
实验内容与完成情况:
1.spark-shell****交互式编程
(1)该系总共有多少学生;
(2)该系共开设来多少门课程
(3)Tom同学的总成绩平均分是多少
(4)求每名同学的选修的课程门数;
具体如下
(5)该系DataBase课程共有多少人选修;
(6)各门课程的平均分是多少;
(7)使用累加器计算共有多少人选了DataBase这门课。
**2.**编写独立应用程序实现数据去重
方法一:源码设置直接输出显示
方法二:源码设置输出结果文件的路径
**3.**编写独立应用程序实现求平均值问题
方法一:源码设置直接输出显示
方法二:源码设置输出结果文件的路径
出现的问题:
(1)Data01.txt文件不存在
(2)无结果result文件
解决方案(列出遇到的问题和解决办法,列出没有解决的问题):
(1)Data01.txt文件需手动上传到/usr/local/spark/sparksqldata路径下,其中sparksqldata文件夹需自己提前创建
(2)需有输入数据才会有result,需将文件存放到data文件夹下
但是将文件放在data文件夹下后运行还是没有result,因此修改了代码文件直接输出显示了结果,代码如下
后听课发现,仅在saveAsTestFile()中写result的话采用的是默认路径,是没有找到正确位置才没发现result文件,因此指定了输出结果的路径为usr/local/spark/sparksqldata/result1和usr/local/spark/sparksqldata/result2方便查看,成功找到输出文件,如下图
版权归原作者 WangyiboH 所有, 如有侵权,请联系我们删除。