【spark】新浪新闻网数据采集实时分析项目

摘要：该项目是一个基于Spark的综合实训项目，旨在实现对新浪新闻网数据的实时采集和分析。项目包括数据采集（使用Python和Scrapy框架将新浪新闻数据存入MongoDB）、数据转存（使用Scala将数据从MongoDB实时导入HDFS）、数据分析与存储（使用Spark Streaming对HDFS上的数据进行实时统计并存储到MySQL）、以及数据可视化（使用Python绘制并上传分析结果到Web端）。报告详细描述了每个步骤的功能设计、实现步骤、源码实现和运行截图。

关键词：Scrapy数据采集 实时分析 ** Spark Scala HDFS Spark Streaming** MongoDB MySQL 数据可视化

（篇幅受限）详细内容可下载文档查看！！！

1.1概述（5分）

1.1.1 训练要点(1分)

回顾并熟练使用python进行数据采集；

掌握scala的使用，将数据从mongo采集到hdfs；

熟练掌握使用spark streaming实现对hdfs目录监测并完成数据分析与处理；

熟练spark的使用，将分析结果存储到mysql；

训练数据据的可视化，将mysql的数据取出并完成可视化。

1.1.2 需求说明(2分)

本实训充许同学们采集各类题材数据,包括并不限于:商品、音乐、新闻、房产、书籍、招聘；

本实训要实现的功能是通过同学采集某类题材数据，实时采集题材数据到mongodb, 再从mongodb将所有同学采集的同题材数据采集hdfs，然后实现该类数据的实时流分析，对分析结果进行存储，然后对mysq中数据实时可视化。

1.1.3 实现步骤(2分)

数据采集：使用scrapy框架实现新闻题材网站的数据采集，存入mongo数据库

数据转存：scala实时采集题材数据从mongo到hdfs

数据分析：启动Spark Streaming监控hdfs目录，分析统计数据

数据存储：使用spark将统计结果转存到mysql中

数据可视：使用python将mysql的结果数据每隔几秒显示出来并更新到web上

1.2 总体设计(20分)

1.2.1总体流程(10分)

【业务流程图】(5分）

【数据流图】(5分）

1.2.2 系统功能结构(5分)

【模块组织结构图】(5分）

1.2.3 运行环境(5)

操作系统和软件依赖(2分)

子系统

操作系统

依赖软件

备注

数据采集

macOS

PyCharm ,python3.9，Chrome

数据存储(mongodb->hdfs)

Linux,Window

Vmware,IDEA,Mongodb,Hadoop3.1, scala2.12,jdk1.8

数据分析与存储(spark streaming)

Linux,Window

Vmware,IDEA,Mysql5.7,Hadoop3.1,scala2.12,jdk1.8

数据可视化

macOS

Pycharm,Mysql,web,python3.9

网络拓朴图(3分)

1.3 详细设计(70分)

1.3.1 库表设计(10分)

1.3.2 数据采集(10分)

功能说明：使用python采集数据到MongoDB

采集内容：新闻数据，包括新闻标题，新闻关键词，发布媒体等数据

采集过程：利用Pycharm从新浪网采集新闻数据到mongodb库中

框架：使用scrapy框架

功能设计：将新浪网的新闻数据，包括新闻标题，新闻关键词，发布媒体等数据采集到mongodb远程数据库中。

以下是scrapy框架:

先是访问新浪新闻网：https://feed.mix.sina.com.cn/，获取歌手的起始页和总页数，根据页数构造URL，依次访问URL，获取新闻数据，包括新闻标题，新闻关键词，发布媒体等数据，生成新闻item信息，并且item发送pipeline的processitem进行入库处理，最后将信息录入到mongodb数据库的news_data集合中。

新闻数据的采集流程如下：

源码实现：

1、scrapy脚本:

2、pipline脚本

3、 midlleware脚本

4、item脚本

运行截图：

1.3.3 数据存储(mongodb->hdfs)(10分)

功能说明：使用scala将mongdb数据拉取到hdfs,而且这个过程时实时的不断进行的。

功能设计：连接mongdb数据库，从pythondb数据库的表news_data的表中筛选出满足collector为“蔡安琪”条件的数据，然后遍历数据，将数据导入Hdfs文件系统中。

流程图如下：

源码实现：

运行截图：

在hadoop集群上运行结果截图：

1.3.4 数据分析与存储(spark streaming)(30分)

功能说明：使用spark streaming分析数据，实时监控 hdfs上从mongdo转储过来的数据，进行实时分析，按发布媒体名称、关键词进行实时统计，将统计结果存入mysql。

功能设计：

1、首先进行初始化sc,ssc:

2、ssc.textFileStream(streamingpath)监控hdfs目录,得到 DStream: lines；

3、对DStream:lines进行map转换，转换keyvalue 的DStream：ItemPairs；

4、进行窗口转换操作ItemPairs.reduceByKeyAndWindow生成htmlCount；

5、对htmlCount进行htmlCount.transform操作，得到发布媒体名称、关键词统计实时分析结果hottestHtml；

6、将分析结果hottestHtml的数据存入mysql；

流程图：

源码实现：

统计关键词Top15:

 2.统计发布媒体Top15：

运行截图：

1、统计关键词Top15:

2、统计发布媒体Top15：

1.3.5 数据可视(10分)

功能说明：使用python语言绘制可视化图片，并上传到web端

功能设计：使用python语言的barplot()根据存储在mysql的分析结果绘制直方图图片，并将这些图片上传到指定的web网页。

流程图：

源码实现：

1、关键词Top15:

2、发布媒体Top15：

运行截图：

1、关键词Top15:

2、发布媒体Top15：

1.4 项目小结（5分）

本项目是一个综合性的数据处理实训，总结了本学期Spark快速大数据处理实训课的相关内容。旨在通过对新浪新闻数据的实时采集与分析，展示如何使用Spark及相关技术（Scrapy、Scala、MongoDB、HDFS、MySQL）完成一个实际的数据处理任务。项目的主要目的是通过使用Python进行数据采集，利用Scala将数据从MongoDB导入HDFS，以及使用Spark Streaming进行实时数据分析和处理。

项目从数据采集的步骤开始，使用Scrapy框架从新浪新闻网站抓取数据，并将这些数据存入MongoDB。然后，通过Scala实时地将这些数据从MongoDB转存到HDFS。在这一过程中，使用了Hadoop的分布式文件系统来存储大量数据，并为Spark Streaming准备数据源。

Spark Streaming在这一项目中发挥了关键作用，它用于实时监控HDFS中的新闻数据，并对其进行统计分析。通过Spark Streaming的窗口操作，能够按发布媒体名称和关键词实时统计数据，并将这些统计结果存储到MySQL数据库中。

最后，项目通过Python脚本对存储在MySQL中的分析结果进行可视化处理，生成直方图，并将这些图片上传到一个Web页面，以便直观地查看分析结果。

整个项目展示了从数据采集到数据分析，再到数据存储和可视化的完整流程。通过这个项目，我不仅掌握了Spark Streaming的实战应用，还提升了数据处理和可视化的能力。

总的来说，这个项目它不仅锻炼了我的编程技能，还让我在实际操作中理解了大数据处理和分析的复杂性，以及如何通过断点分析来解决实际问题。

标签： spark 大数据分布式

本文转载自: https://blog.csdn.net/weixin_54735966/article/details/140050458
版权归原作者 多吃青菜吧 所有，如有侵权，请联系我们删除。

【spark】新浪新闻网数据采集实时分析项目

1.1概述（5分）

1.1.1 训练要点(1分)

1.1.2 需求说明(2分)

1.1.3 实现步骤(2分)

1.2 总体设计(20分)

1.2.1总体流程(10分)

1.2.2 系统功能结构(5分)

1.2.3 运行环境(5)

1.3 详细设计(70分)

1.3.1 库表设计(10分)

1.3.2 数据采集(10分)

1.3.3 数据存储(mongodb->hdfs)(10分)

1.3.4 数据分析与存储(spark streaming)(30分)

1.3.5 数据可视(10分)

1.4 项目小结（5分）

发表评论