大数据技术与应用课程设计基于 Spark的出租房屋大数据分析

大数据技术与应用课程设计

课程名

：

大数据技术与应用(二)课程设计

题目

：

基于 Spark的出租房屋大数据分析

班级

：

学号

：

姓名

：

项目背景与功能 1. 项目背景

此次项目是分析广东七地二手房的房子情况，数据是来自链家的二手房，此次的爬取的数据是2023年5月最新的数据，数据包含了十个字段，都是爬取后在excel做了简单的数据预处理，最后导入虚拟机。

1. 项目功能

本项目通过EXCEL对出租房屋数据集进行预处理，并使用Spark SQL进行了租金前十的市辖区、各市辖区出租房屋的最大面积、最小面积、平均面积等数据分析；使用Flask+Echarts对数据进行大屏可视化；使用K-Means聚类对出租房屋进行聚类分析，根据聚类结果可知，该数据集可分为三类；使用Lasson回归模型进行预测租金，该模型优化后RMSE值为1074；

1. 运行环境

使用Ubuntu16.04 的虚拟机版本，软件方面使用的有Hadoop2.7.1、Spark2.1.0、HBase1.1.5、JDK1.8、Scala2.11.8、MySQL、Kafka_2.11-0.10.2.0、 Sbt、Maven3.3.9、Hive2.1.0、Pycharm2016.3、python3.8

数据集与数据预处理 1. 原始数据集 1. 数据集说明

图2-1 数据集采集

采集时间：2023-5-8

采集网址：https://fs.lianjia.com/zufang/、https://sz.lianjia.com/zufang/、https://zs.lianjia.com/zufang/、https://zh.lianjia.com/zufang/、https://hz.lianjia.com/zufang/、https://zj.lianjia.com/zufang/、https://qy.lianjia.com/zufang/

内容：佛山、深圳、珠江、湛江、惠州、清远、中山七个城市的租房信息

1. 1. 原始数据集展示 (前 10 条)2.

图2-2 原始数据集

1. 数据预处理 1. Excel数据预处理

图2-3 数据集预处理

1. 1. 数据字段说明

列名称

说明

district

字符串类型，所在地级市

address

字符串类型，所在市辖区

area

浮点数类型，出租房屋面积

orientation

字符串类型，出租房屋朝向

room

整数类型，室数

living

整数类型，厅数

bathroom

整数类型，卫生间数

floor

整数类型，所在楼层

rent

整数类型，租金

1. 数据上传 1. 处理数据

图2-4 启动Hadoop

图2-5 数据展示

图2-6 pre_rent.sh

图2-7 执行shell脚本并查看处理后数据

1. 1. 上传至HDFS

图2-8 成功上传图示

数据分析 1. 使用 Spark SQL 进行统计分析 (至少 5个) 1. 统计租金前10的市辖区

图3-7 导入数据至Spark sql

图3-8 查询结果图示

1. 1. 统计市辖区出租房屋的最大面积和最小面积

图3-9 统计结果图示

1. 1. 统计市辖区出租房屋的平均面积及平均租金

图3-10 统计结果图示

1. 1. 统计地级市租金在1000以上的房屋数量

图3-11 统计结果图示

1. 1. 统计地级市一房一厅一卫的房屋最低租金

图3-12 统计结果图示

Flask与ECharts 数据大屏可视化

本节中利用数学建模的知识构建了一个伪动态数据读取模型，配合Flask框架与ECharts绘图，构建了一个大屏可视化web界面，具体界面入下图所示。

图 41数据大屏展示整体

1. 开发环境及伪动态算法介绍 1. 利用 Flask 与ECharts

本文在window环境下利用python3.9搭建动态web应用。具体环境信息入下所示。

表 41动态web可视化项目所用配置

序号

运行环境

Linux(Ubuntu16.04)

Win11

Hadoop 2.7.1

Python 3.9

Pymysql 1.0.3

Flask 2.3.2

Echarts

1. 1. 伪动态算法建模

本文所构建算法从读取数据部分入手，使不同时间序列下读取数据行数不同，使可视化结果中数据呈现动态的变化，关键式入下所示。

(41)

具体代码如下图所示。

图 42快启动-缓增长代码

1. Flask+ ECharts 可视化 1. 数据导入mysql

本文在window环境下通过Navicat软件直接将数据导入到mysql中。具体如下图所示。

图 43数据导入mysql

1. 1. 总体情况预览可视化分析

在本节中将房源数量、房源均面积、房间数量、租房均价4个指标可视化的展示在图上。让读者更容易了解整体租房信息。

Flask代码

图 44分析1Flask代码

Web代码

图 45分析1web代码

可视化结果展示

图 46分析1可视化展示

1. 1. 深圳、佛山租房各项指标对比

通过雷达图可以清楚的分析在相同的环境下，深圳与佛山两地二手房的价格差别，本次选取租房中的房间数量、平均面积、均价、楼层层数、客厅数量五个指标进行可视化。

Flask代码

图 47分析2Flask代码

Web代码

图 48分析2web代码

可视化结果展示

图 49分析2可视化展示

1. 1. 不同朝向的租房房间数量、楼层可视化分析

通

1. 1. 租房覆盖率分析展示

通过对比本次数据中出现的房源地区来分析该网站的房源覆盖的范围，通过饼图将结果清晰展示出来。

Flask代码

图 422分析7Flask代码

Web代码

图 423分析7web代码

可视化结果展示

图 424分析7可视化展示

1. 总体大屏可视化结果展示

具体可视化结果如下图所示，请注意，本文使用的大屏展示是实时变化的，但图片无法展示效果。

图 425最终大屏可视化展示

Spark 机器学习 1. K-Means聚类分析 1. 数据预处理
导入所需包

图5-1

读入数据

图5-2

1. 1. 特征工程
字符串编码和独热编码

将特征向量合并为一个向量列

图5-3

将Pipeline组合到一个流程中

图5-4

1. 1. K-Means模型聚类
使用流程，处理数据并拟合K-Means模型

图5-5 模型图示

使用K-Means模型进行预测，并展示结果

图5-6

模型的所有聚类中心情况

图5-7

输出每个簇的大小

图5-8

输出每个簇的数据统计信息

图5-9

1. 1. 模型评估
WSSSE（集合内误差平方和）度量聚类的有效性

图5-10

该模型的WSSSE值为：1.0264，该值越小可说明模型的有效性越高；

1. 1. 模型优化

图5-11

使用二分k-Means模型得到聚类WSSSE分数为1.266>1.102，可得上述K-Means模型已为当前区间最优解。

1. 1. 结论

根据模型聚类所得结果，该数据集可分为三类：类型0-面价最大，房间数最多，租金最高，多数位于中山、湛江等地区，适宜租来做为厂房/工作室等多人工作的场地；类型1-面积最小，房间数最少，租金最少，但仍处于两千以上，推测是处于出行便利或市中心，多数处于深圳等发达城市，适宜独居的上班人员；类型2-面积适中，租金适中，适合合租、一家人租住；