0


Spark算子-Scala版本 头歌答案

Spark算子--Scala版本

第1关 Spark算子--Scala版本

编程要求

根据提示,在右侧编辑器

  1. begin-end

处补充代码,输出每个元素及其长度并去重。

测试说明

平台会对你编写的代码进行测试:

预期输出:

  1. (an,2)` `(dog,3)` `(cat,3)

开始你的任务吧,祝你成功!

  1. import org.apache.spark.rdd.RDD
  2. import org.apache.spark.{SparkConf, SparkContext}
  3. object EduCoder1 {
  4. def main(args: Array[String]): Unit = {
  5. val conf =new SparkConf().setAppName("educoder1").setMaster("local")
  6. val sc=new SparkContext(conf)
  7. val rdd = sc.parallelize(List("dog","an","cat","an","cat"))
  8. /********** Begin **********/
  9. //第一步:通过获取rdd中每个元素的长度创建新的rdd1
  10. val rdd1=rdd.map(x=>x.length)
  11. //第二步:通过zip把rdd1和rdd组合创建rdd2
  12. val rdd2=rdd.zip(rdd1)
  13. //第三步:去重
  14. val rdd3=rdd2.distinct()
  15. //第四步:输出结果
  16. rdd3.foreach(println)
  17. /********** End **********/
  18. sc.stop()
  19. }
  20. }

第2关:转换算子之flatMap和filter算子

编程要求

根据提示,在右侧编辑器

  1. begin-end

处补充代码,输出个数大于一的单词。

测试说明

平台会对你编写的代码进行测试:

所给文件内容如下:

  1. hello,world,hello,sparkgood,nice,good,do

预期输出:

  1. (hello,2)
  1. (good,2)

开始你的任务吧,祝你成功!

  1. import org.apache.spark.rdd.RDD
  2. import org.apache.spark.{SparkConf, SparkContext}
  3. object EduCoder2 {
  4. def main(args: Array[String]): Unit = {
  5. val conf =new SparkConf().setAppName("educoder2").setMaster("local")
  6. val sc=new SparkContext(conf)
  7. val rdd=sc.textFile("file:///root/step3_fils")
  8. /********** Begin **********/
  9. //对所给数据创建的rdd切割分词
  10. val rdd1=rdd.flatMap(t=>t.split(","))
  11. //每个单词计数为1
  12. val rdd2= rdd1.map(t=>(t,1))
  13. //对相同单词个数进行累加
  14. val rdd3=rdd2.reduceByKey(_+_)
  15. //过滤出单词个数大于一个的
  16. val rdd4= rdd3.filter(t=>t._2>1)
  17. //输出结果
  18. rdd4.foreach(println)
  19. /********** End **********/
  20. sc.stop()
  21. }
  22. }

第3关:转换算子之reduceBykey和mapValues算子

编程要求

根据提示,在右侧编辑器

  1. begin-end

处补充代码,某商店上午卖出

  1. 10

本 spark 书籍,每本

  1. 50

元,

  1. 4

本 Hadoop 书籍,每本

  1. 40

元,下午卖出

  1. 20

本 spark 书籍,每本

  1. 40

元,

  1. 10

本 Hadoop 书籍,每本

  1. 30

元。

现要求求出这两本书这一天销售的平均价格。

数据如下:

  1. spark,10,50spark,40,25hadoop,5,40hadoop,10,25

测试说明

平台会对你编写的代码进行测试:

预期输出:

  1. (spark,30)` `(hadoop,30)

开始你的任务吧,祝你成功!

  1. import org.apache.spark.rdd.RDD
  2. import org.apache.spark.{SparkConf, SparkContext}
  3. object EduCoder3 {
  4. def main(args: Array[String]): Unit = {
  5. val conf =new SparkConf().setAppName("educoder3").setMaster("local")
  6. val sc=new SparkContext(conf)
  7. /********** Begin **********/
  8. //通过给定数据通过序列化方式创建rdd
  9. val rdd = sc.parallelize(List(("spark",(10,50)),("hadoop",(5,40)),("hadoop",(10,25)),("spark",(40,25))))
  10. //求出一天收入总和以及出售本数
  11. val rdd2 = rdd.reduceByKey((x,y) => ((x._1*x._2)+(y._1*y._2), x._1+y._1))
  12. //求出每本平均售价
  13. val rdd3 = rdd2.mapValues(x => x._1 / x._2)
  14. //输出结果
  15. rdd3.foreach(println)
  16. /********** End **********/
  17. sc.stop
  18. }
  19. }

第4关:转化算子之groupByKey和sortByKey

编程要求

根据提示,在右侧编辑器

  1. begin-end

处补充代码,对每人所学书籍本数分组并排序输出。

测试说明

平台会对你编写的代码进行测试:

所给数据说明:

  1. ("Bob","spark")
  1. Bob

:人名

  1. spark

:所学书籍

预期输出:

  1. (Bob,3)(Candy,1)(Lily,1)

开始你的任务吧,祝你成功!

  1. import org.apache.spark.rdd.RDD
  2. import org.apache.spark.{SparkConf, SparkContext}
  3. object EduCoder4 {
  4. def main(args: Array[String]): Unit = {
  5. val conf =new SparkConf().setAppName("educoder4").setMaster("local")
  6. val sc=new SparkContext(conf)
  7. val rdd = sc.parallelize(List(("Bob","spark"),("Lily","hadoop"),("Candy","hive"),("Bob","hbase"),("Bob","hive")))
  8. /********** Begin **********/
  9. //根据姓名对所学书籍分组
  10. val rdd1= rdd.groupByKey()
  11. //求出每个人的书籍本数
  12. val rdd2= rdd1.mapValues(t=>t.toList.size)
  13. //根据姓名排序
  14. val rdd3= rdd2.sortByKey()
  15. //打印结果
  16. rdd3.foreach(println)
  17. /********** End **********/
  18. sc.stop()
  19. }
  20. }

第5关:常见行动算子

编程要求

根据提示,在右侧编辑器

  1. begin-end

处补充代码输出正确答案。

测试说明

预期输出:

  1. 4
  2. dog
  3. sun
  4. an
  5. dogsunancat
  6. dog
  7. sun
  8. an
  9. cat

开始你的任务吧,祝你成功!

  1. import org.apache.spark.rdd.RDD
  2. import org.apache.spark.{SparkConf, SparkContext}
  3. object EduCoder5 {
  4. def main(args: Array[String]): Unit = {
  5. val conf =new SparkConf().setAppName("educoder5").setMaster("local")
  6. val sc=new SparkContext(conf)
  7. val rdd = sc.parallelize(List("dog","sun","an","cat"))
  8. /********** Begin **********/
  9. //返回所给rdd的元素个数并输出
  10. val r1=rdd.count()
  11. println(r1)
  12. //返回rdd的前三个元素并输出
  13. val rdd1=rdd.take(3)
  14. rdd1.foreach(println)
  15. //累加rdd的所有元素并输出结果
  16. val r2=rdd.reduce(_+_)
  17. println(r2)
  18. //收集所有元素并且输出
  19. rdd.collect().foreach(println)
  20. /********** End **********/
  21. sc.stop()
  22. }
  23. }

第6关:算子的综合使用案例

编程要求

有一份数据格式如下的文档:

日期,姓名,app,下载渠道,地区,版本号

  1. 2017-08-14,Lily,Facebook,360 Shop,NewYork,v1.0 2017-08-14,Bob,Facebook,Amazon Appstore,NewYork,v1.2 2017-08-14,Lily,Facebook,360 Shop,Washington,v1.2 2017-08-14,Lily,Facebook,Google Play Store,Washington,v2.0 2017-08-14,Candy,YouTube,app store,Chicago,v1.8 2017-08-14,Lily,Facebook,Google Play Store,Washington,v2.0 2017-08-14,Candy,YouTube,app store,Chicago,v1.9 2017-08-15,Candy,YouTube,app store,Chicago,v2.0 2017-08-15,Candy,YouTube,app store,Chicago,v2.3 2017-08-15,Lily,Facebook,360 Shop,NewYork,v2.0 2017-08-15,Bob,Facebook,Amazon Appstore,NewYork,v1.2 2017-08-15,Bob,Facebook,Amazon Appstore,NewYork,v1.5 2017-08-15,Candy,YouTube,app store,Chicago,v2.9

需求: 不考虑地区,列出版本升级情况。

结果格式: 日期,姓名,app,下载渠道,升级前版本,升级后版本。

例: 数据:

  1. 2017-08-14,Lily,Facebook,360 Shop,NewYork,v1.0 2017-08-14,Lily,Facebook,360 Shop,Washington,v1.2 2017-08-14,Lily,Facebook,360 Shop,NewYork,v2.0

结果:

  1. (2017-08-14,Lily,Facebook,360 Shop,v1.0,v1.2 (2017-08-14,Lily,Facebook,360 Shop,v1.2,v2.0

测试说明

本实训目前是基于

  1. Spark

单机模式的运行方式,完成整个评测流程所需时间较长,请耐心等待!

开始你的任务吧,祝你成功!

  1. import org.apache.spark.rdd.RDD
  2. import org.apache.spark.{SparkConf, SparkContext}
  3. object EduCoder {
  4. def main(args: Array[String]): Unit = {
  5. val conf =new SparkConf().setAppName("educoder").setMaster("local")
  6. val sc=new SparkContext(conf)
  7. val line=sc.textFile("file:///root/step1_fils")
  8. /********** Begin **********/
  9. //根据需求,去除城市字段
  10. val rdd1 = line.map(t => {
  11. val arr = t.split(",")
  12. ((arr(0), arr(1), arr(2), arr(3)), arr(5))
  13. })
  14. //按key分组,key是除城市字段和版本号字段``以外的所有字段,value是版本号
  15. val rdd2=rdd1.groupByKey()
  16. //过滤版本号重复的``(例:(v2.0,v2.0))以及版本号只有一个的(例(v1.0))
  17. val rdd3=rdd2.mapValues(t=>t.toList.distinct).filter(t=>t._2.length>1)
  18. //拆分重新组合 例:(key,(v2.0,v2.5,v3.0))拆分成(key,(v2.0,v2.5),((key,(v2.5,v3.0)))
  19. val rdd4= rdd3.mapValues(t => {
  20. val tai = t.tail
  21. t.zip(tai)
  22. })
  23. //按需求整理输出格式(例:(2017-08-14,Lily,Facebook,360 Shop,v1.2,v2.0))
  24. val rdd5= rdd4.flatMap(t => {
  25. t._2.map(tp => {
  26. (t._1._1, t._1._2, t._1._3, t._1._4, tp._1, tp._2)
  27. })
  28. })
  29. //执行foreach操作,打印出结果
  30. rdd5.foreach(println)
  31. /********** End **********/
  32. sc.stop()
  33. }
  34. }
标签: spark scala 大数据

本文转载自: https://blog.csdn.net/weixin_54237806/article/details/128477334
版权归原作者 4师傅 所有, 如有侵权,请联系我们删除。

“Spark算子-Scala版本 头歌答案”的评论:

还没有评论