0


基于hadoop豆瓣电影数据分析

《Hadoop大数据技术》测试试题

题 目: 基于hadoop豆瓣电影数据分析

学生姓名: 学 号:

学 院: 专业班级:

完成日期: 年 月 日

成绩(百分制):

授课教师:

试题题目:基于hadoop豆瓣电影数据分析

试题内容及要求

试题说明:

豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价,豆瓣根据每部影片看过的人数以及该影片所得的评价等综合数据,通过算法分析产生豆瓣电影 Top 250。

为了分析电影产业的发展趋势,你需要对这些信息做统计分析。

豆瓣网站的数据形式为文本文件(必须将导入到hive中做处理)。

文件的内容如下:

待分析指标如下:

1、****什么类型的电影平均评分最高。

要求输出:类型 平均分

2、****哪个国家是烂片之王(平均评分小于6分的国家)。

要求输出:国家 平均分

各项统计指标需要添加到hbase,以方便查询,分别添加到**2个表(一个指标一个表),且在hbase shell**中显示你写入的结果数据。

另外,本次操作需要留下日志,在hdfs** 的**** /log**** 下**** 上传自己的操作记录。**

操作记录的格式为:

学号** **** ****姓名 操作时间 **** **

**2019xx xxx 2020-12-21 10:52:12 **

试题说明:

  1. 独立完成,可查阅教材及参考书籍,不准交头接耳,抄袭0分。
  2. 此题要求使用分布式文件系统,文件描述信息存放在列式数据库。
  3. 操作过程需要截图,如启动 hdfs** ,启动hive**
  4. 请将列式数据库中表名加上学生姓名的拼音首字母缩写_xxx+学号,例如:

列式数据库中有文件描述这个表那么‘张三’同学的表应该命名为zs_201902003

  1. 报告中详细贴出考试内容操作语句(不是截图程序****运行结果截图贴在报告中。
  2. 考试报告文档提交的格式为PDF,不能提交word文档和图片****。

评分标准:

任务

权重

评分标准

任务一

导入数据到hive

30%

内容

分值

等级

评分

区间

实际得分

综合应用基础和专业知识的能力

30分

优秀:过程完整严谨,逻辑清晰,命令正确 ,选择的方法可以实现全自动

30-25

良好:过程完整严谨,逻辑清晰,命令正确,但不能实现全自动

24-19

中等:过程完整,逻辑不清晰,命令基本正确,按要求完成目标

18-13

合格:过程混乱,命令勉强正确,未按要求完成

12-7

不合格:过程混乱,命令错误,未按要求完成

6-0

任务二

分析数据

40%

内容

分值

等级

评分

区间

实际得分

综合应用基础和专业知识的能力

40分

优秀:数据库和表正确创建,sql语句正确,且高效

40-33

良好:数据库和表正确创建,sql语句正确

32-25

中等:数据库和表正确创建,sql语句部分正确

24-17

合格:数据库和表正确创建,sql语句不正确

16-9

不合格:数据库和表错误创建,sql语句不正确

8-0

任务三

分析数据

30%

内容

分值

等级

评分

区间

实际得分

导出数据,并保留操作日志

综合应用基础和专业知识的能力

30分

优秀:过程完整严谨,逻辑清晰,命令正确

30-25

良好:过程完整严谨,逻辑清晰,命令正确

24-19

中等:过程完整,逻辑不清晰,命令基本正确,按要求完成目标

18-13

合格:过程混乱,命令勉强正确,未按要求完成

12-7

不合格:过程混乱,命令错误,未按要求完成

6-0

任务一:

操作过程:

  1. 打开hdfs

代码:start-all.sh

  1. 打开hive

代码:hive;

3、将数据粘贴进主目录中

4、打开自己的数据库

代码:use liuxuanting;

5、新建一个表,表名为:lxt_2021900406

代码:

create external table lxt_2021900406(id int,name string,people int,stype string,country string,atime string,timelong int,year int,score double,here string)

row format delimited fields terminated by ','

6、导入数据

代码:load data local inpath "/home/liuxuanting/douban_movie-1686527723744.txt" into table lxt_2021900406;

7、查看数据导入情况

代码:select * from lxt_2021900406;

任务二:

1、****什么类型的电影平均评分最高。

要求输出:类型 平均分

代码:SELECT stype,AVG(score) as scores

FROM lxt_2021900406

GROUP BY stype order by scores DESC;

输出结果:

2、****哪个国家是烂片之王(平均评分小于6分的国家)。

要求输出:国家 平均分

代码:

SELECT country,avg(score) FROM lxt_2021900406 GROUP BY country having avg(score)<6;

输出结果:

任务三:

1、打开hbase

代码:start-hbase.sh

2、进入hbase shell

代码:hbase shell

3、在hbase中创建表lxt_2021900406

代码:creat 'lxt_2021900406','info'

4、在表lxt_2021900406中手动插入数据

代码:put ‘lxt_2021900406’,’1’,’info:moxige,bolan’,’5.8,5.7’

5、查看hbase表的插入情况

代码:scan ‘lxt_2021900406’

6、在hdfs中新建表/log

代码:hdfs dfs -mkdir /log

6、编辑日志

代码:vi liuxuanting1

7、上传操作日志在/log中

代码:hdfs dfs -copyFromLocal /home/liuxuanting/liuxuanting1 /log/

8、查看日志上传情况

代码:hdfs dfs -cat /log/liuxuanting1

标签: hadoop 大数据

本文转载自: https://blog.csdn.net/yh1009/article/details/131632241
版权归原作者 左岸2420 所有, 如有侵权,请联系我们删除。

“基于hadoop豆瓣电影数据分析”的评论:

还没有评论