基于hadoop豆瓣电影数据分析

《Hadoop大数据技术》测试试题

题目：基于hadoop豆瓣电影数据分析

学生姓名：学号：

学院：专业班级：

完成日期：年月日

成绩（百分制）：

授课教师：

试题题目：基于hadoop豆瓣电影数据分析

试题内容及要求

试题说明：

豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价，豆瓣根据每部影片看过的人数以及该影片所得的评价等综合数据，通过算法分析产生豆瓣电影 Top 250。

为了分析电影产业的发展趋势，你需要对这些信息做统计分析。

豆瓣网站的数据形式为文本文件（必须将导入到hive中做处理）。

文件的内容如下：

待分析指标如下：

1、****什么类型的电影平均评分最高。

要求输出：类型平均分

2、****哪个国家是烂片之王（平均评分小于6分的国家）。

要求输出：国家平均分

各项统计指标需要添加到hbase，以方便查询，分别添加到**2个表（一个指标一个表），且在hbase shell**中显示你写入的结果数据。

另外，本次操作需要留下日志，在hdfs** 的**** /log**** 下**** 上传自己的操作记录。**

操作记录的格式为：

学号** **** ****姓名操作时间 **** **

**2019xx xxx 2020-12-21 10:52:12 **

试题说明：

独立完成，可查阅教材及参考书籍，不准交头接耳，抄袭0分。
此题要求使用分布式文件系统,文件描述信息存放在列式数据库。
操作过程需要截图，如启动 hdfs** ，启动hive**。
请将列式数据库中表名加上学生姓名的拼音首字母缩写_xxx+学号，例如：

列式数据库中有文件描述这个表，那么‘张三’同学的表应该命名为zs_201902003。

报告中详细贴出考试内容操作语句（不是截图），程序****运行结果截图贴在报告中。
考试报告文档提交的格式为PDF，不能提交word文档和图片****。

评分标准：

任务

权重

评分标准

任务一

导入数据到hive

30%

内容

分值

等级

评分

区间

实际得分

综合应用基础和专业知识的能力

30分

优秀：过程完整严谨，逻辑清晰，命令正确 ,选择的方法可以实现全自动

30-25

良好：过程完整严谨，逻辑清晰，命令正确，但不能实现全自动

24-19

中等：过程完整，逻辑不清晰，命令基本正确，按要求完成目标

18-13

合格：过程混乱，命令勉强正确，未按要求完成

12-7

不合格：过程混乱，命令错误，未按要求完成

6-0

任务二

分析数据

40%

内容

分值

等级

评分

区间

实际得分

综合应用基础和专业知识的能力

40分

优秀：数据库和表正确创建，sql语句正确，且高效

40-33

良好：数据库和表正确创建，sql语句正确

32-25

中等：数据库和表正确创建，sql语句部分正确

24-17

合格：数据库和表正确创建，sql语句不正确

16-9

不合格：数据库和表错误创建，sql语句不正确

8-0

任务三

分析数据

30%

内容

分值

等级

评分

区间

实际得分

导出数据，并保留操作日志

综合应用基础和专业知识的能力

30分

优秀：过程完整严谨，逻辑清晰，命令正确

30-25

良好：过程完整严谨，逻辑清晰，命令正确

24-19

中等：过程完整，逻辑不清晰，命令基本正确，按要求完成目标

18-13

合格：过程混乱，命令勉强正确，未按要求完成

12-7

不合格：过程混乱，命令错误，未按要求完成

6-0

任务一：

操作过程：

打开hdfs

代码：start-all.sh

打开hive

代码：hive;

3、将数据粘贴进主目录中

4、打开自己的数据库

代码：use liuxuanting;

5、新建一个表，表名为：lxt_2021900406

代码：

create external table lxt_2021900406(id int,name string,people int,stype string,country string,atime string,timelong int,year int,score double,here string)

row format delimited fields terminated by ','

6、导入数据

代码:load data local inpath "/home/liuxuanting/douban_movie-1686527723744.txt" into table lxt_2021900406；

7、查看数据导入情况

代码：select * from lxt_2021900406;

任务二：

1、****什么类型的电影平均评分最高。

要求输出：类型平均分

代码：SELECT stype,AVG(score) as scores

FROM lxt_2021900406

GROUP BY stype order by scores DESC;

输出结果：

2、****哪个国家是烂片之王（平均评分小于6分的国家）。

要求输出：国家平均分

代码：

SELECT country,avg(score) FROM lxt_2021900406 GROUP BY country having avg(score)<6;

输出结果：

任务三：

1、打开hbase

代码：start-hbase.sh

2、进入hbase shell

代码:hbase shell

3、在hbase中创建表lxt_2021900406

代码：creat 'lxt_2021900406','info'

4、在表lxt_2021900406中手动插入数据

代码：put ‘lxt_2021900406’,’1’,’info:moxige,bolan’,’5.8,5.7’

5、查看hbase表的插入情况

代码：scan ‘lxt_2021900406’

6、在hdfs中新建表/log

代码：hdfs dfs -mkdir /log

6、编辑日志

代码：vi liuxuanting1

7、上传操作日志在/log中

代码：hdfs dfs -copyFromLocal /home/liuxuanting/liuxuanting1 /log/

8、查看日志上传情况

代码：hdfs dfs -cat /log/liuxuanting1

标签： hadoop 大数据

本文转载自: https://blog.csdn.net/yh1009/article/details/131632241
版权归原作者 左岸2420 所有，如有侵权，请联系我们删除。

基于hadoop豆瓣电影数据分析

发表评论

“基于hadoop豆瓣电影数据分析”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航