基于spark的电影推荐系统

作者主页：Java码库

主营内容：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app等设计与开发。

收藏点赞不迷路关注作者有好处

文末获取源码

项目描述

本系统是基于Spark来进行推荐的，使用的是Spark集群的方式来处理数据，Spark集群运行在用VMwear里的Ubuntu20.04上。爬虫部分使用的是用Python语言所编写的爬虫程序在windows11下进行爬取的，数据存储在Ubuntu里的MySQL中。数据展示使用的是Django和Bootstrap所搭建的Web平台，代码均在Pycharm中编写。

系统的架构分为数据获取层，数据处理层，数据存储层，业务层，展示层。

展示层包括了Web的前后台两部分，前台是为了用户来查看电影数据和推荐系统向用户展示推荐数据页面，后台是管理员管理用户和电影数据的页面。

业务层是对前后台业务功能进行实现的代码逻辑层。

数据计算层是用来对数据做统计分析，和运行推荐算法的。通过对数据存储层里的基础数据和用户行为数据做计算推荐，得到的结果重新存入数据存储层中。

数据获取层用以获取本推荐系统所需要的大量基础数据，并进行数据预处理，使之规整以后便存入数据存储层中。

系统架构各层环境的搭建如下：

展示层和业务层通过Django和Bootstrap进行搭建实现，在Windows11环境使用pip命令下载Django，还有在Bootstrap官网下载压缩包，然后在pycharm上新建一个Django项目。然后把Bootstrap解压包放在项目的static文件夹下面，后续网页开发的时候可以进行引用，实现各种样式的前端效果。
数据计算层是基于4.1系统环境部署的Spark集群实现数据统计分析和推荐算法计算的。其中用到了Spark SQL 和Spark ML。
数据存储层使用的关系型数据库MySQL，其部署安装在Ubuntu当中，为了使其能够在windows11平台使用，要在安装成功后修改root远程登录的IP为%，意思是允许外部IP对数据库进行访问，然后就可以在UBuntu和Windows11两个平台共用一个数据库作为本推荐系统的存储层。
本推荐系统的数据获取层，是在Windows11下用pycharm开发工具开发爬虫程序，并进行预处理，然后存入数据存储层的数据库中，用于数据计算层，业务层和展示层所用。