0


实验4 RDD编程初级实践

一、实验目的

(1)熟悉Spark的RDD基本操作及键值对操作;

(2)熟悉使用RDD编程解决实际具体问题的方法。

二、实验平台

操作系统:Ubuntu16.04

Spark版本:2.1.0

三、实验内容和要求

实验内容与完成情况:

1.spark-shell****交互式编程

(1)该系总共有多少学生;

(2)该系共开设来多少门课程

(3)Tom同学的总成绩平均分是多少

(4)求每名同学的选修的课程门数;

具体如下

(5)该系DataBase课程共有多少人选修;

(6)各门课程的平均分是多少;

(7)使用累加器计算共有多少人选了DataBase这门课。

**2.**编写独立应用程序实现数据去重

方法一:源码设置直接输出显示

方法二:源码设置输出结果文件的路径

**3.**编写独立应用程序实现求平均值问题

方法一:源码设置直接输出显示

方法二:源码设置输出结果文件的路径

出现的问题:

(1)Data01.txt文件不存在

(2)无结果result文件

解决方案(列出遇到的问题和解决办法,列出没有解决的问题):

(1)Data01.txt文件需手动上传到/usr/local/spark/sparksqldata路径下,其中sparksqldata文件夹需自己提前创建

(2)需有输入数据才会有result,需将文件存放到data文件夹下

但是将文件放在data文件夹下后运行还是没有result,因此修改了代码文件直接输出显示了结果,代码如下

后听课发现,仅在saveAsTestFile()中写result的话采用的是默认路径,是没有找到正确位置才没发现result文件,因此指定了输出结果的路径为usr/local/spark/sparksqldata/result1和usr/local/spark/sparksqldata/result2方便查看,成功找到输出文件,如下图

标签: hadoop spark hdfs

本文转载自: https://blog.csdn.net/WangyiboH/article/details/124987050
版权归原作者 WangyiboH 所有, 如有侵权,请联系我们删除。

“实验4 RDD编程初级实践”的评论:

还没有评论