0


大数据技术原理与应用之可视化实训

《大数据技术原理与应用》实训报告

2020/2021 学年第一学期

目录


2 功能要求………………………………………………………………………………….. 4

1 总体设计………………………………………………………………………………….. 4

2主要函数设计……………………………………………………………………………… 5

第一部分 实训题目与要求

1 问题提出

1.1实训任务1

对2017南京某几个月的天气分析,并能够使用合适的图例展示相关的数据

1.2实训任务2

利用爬虫技术爬取天气预报网并对爬取出来的数据进行可视化分析

2功能要求

2.1实训任务1

  1. 五月份南京最高温最大值、最低温最小值和最大温差及对应的日期。
  2. 五月份不同天气对应的天数和雨天的百分比。
  3. 五月份不同风向对应的天数和出现最多的风向。
  4. 五月份风力超过3级的天数。
  5. 绘制五月份南京高温、低温(柱状)及温差(折线)示意图,并标注温差最大的点。
  6. 绘制五月份南京天气情况分布饼图。
  7. 作柱状图比较5月、6月、7月三个月的最高温度和最低温度。

2.2实训任务2

从天气后报网(http://www.tianqihoubao.com/)爬取自己家乡所属城市过去一个月每天的最高温度和最低温度,并绘制一个月内最高温度和最低温度的走势比较图。

第二部分 设计实训题目功能

1 总体设计

1.1实训任务1

在对天气数据的分析过程中,需要有些python基础,需要用到的库有csv库,numpy库以及matplotlib库。

首先是先对给出的天气数据进行分析,根据任务需求进行程序代码的编写分析完天气数据,根据分析后的数据进行绘图。

1.2实训任务2

爬虫需有html,js以及css基础以及会一些爬虫相关库和绘图库的使用。首先获取url网站源码,将获取到的网页进行分析将抓取到的数据以csv文件保存在本地上,之后根据所需要的数据需求进行编写程序代码最后对文件数据进行分析绘图。

2主要函数设计

2.1实训任务1

对2017南京某几个月的天气分析,并能够使用合适的图例展示相关的数据

  1. 五月份南京最高温最大值、最低温最小值和最大温差及对应的日期。
  2. 五月份不同天气对应的天数和雨天的百分比。
  3. 五月份不同风向对应的天数和出现最多的风向。
  4. 五月份风力超过3级的天数。
  5. 绘制五月份南京高温、低温(柱状)及温差(折线)示意图,并标注温差最大的点。
  6. 绘制五月份南京天气情况分布饼图。
  7. 作柱状图比较5月、6月、7月三个月的最高温度和最低温度。

设计思路:

数据分析-绘制图形

已知给出2017年五月,六月,七月三个月的天气情况的csv文件,首先要先用到csv库,进行对csv文件读取,然后开始对数据进行分析处理。分析小任务1到6都是分析五月份的数据,所以说前面6个小任务首先就是要把五月这其中的一个月单 独取出来放在一个集合中,从csv文件中的数据分析中,可以知道每列分别代表着日期,最高温,最低温,天气,风向,风力,所对应的下标就分别为[0],[1] ,[2],[3],[4],[5],之后进行程序代码的编写,分别计算出相应结果。数据分析之后就进行绘图,利用matplotlib库进行绘 制对应的图形,最后以plt.show()将图形展示出来结束程序。

南京天气csv文件如下:

绘制出的图形如下

2.2实训任务2

**从天气后报网(http://www.tianqihoubao.com/)爬取自己家乡所属城市过去一个月每天的最高温度和最低温度,并 绘制一个月内最高温度和最低温度的走势比较图。 **

设计思路:

爬虫(获取数据-解析数据-保存数据) 绘图(分析数据-进行绘图)

先分析任务要求,这次任务是为了爬取天气后报网中所在家乡城市的过去一个月天气情况。我的家乡在江西上饶,首先要先进入网站,地址url为: “http://www.tianqihoubao.com/" ,进入http://www.tianqihoubao.com/这个网站,然后选择要爬取的城市,选择江西[1]上饶,然后再选择2020年12月的天气历史情况

具体步骤如下操作

进入天气后报官网

进入我所在的地区--江西上饶的12月历史天气网址

获取并分析网站源码

通过对html代码分析发现,过去一个月的天气情况都是在“tr”元素之中

注:完整程序请参见附录A。

3 问题与改进

3.1实训任务1

问题:python基础没有学扎实牢固,写的代码过于繁琐冗余,没有进行好的算法处理导致一个简单的任务需要用到许多步骤 以及代码才能完成,代码书写规范也有欠缺,变量命名不规范,不会命名的都以中文拼音进行命名有损代码美观性以及 可读性。

改进: 实训结束后加强对python基础的学习,将基础学好,也养成一个规范书写代码的好习惯

3.2实训任务2

问题:前端知识尚欠缺,要用到的HTML,JavaScript以及CSS都没有进行较为深入的学习,还有需要用的到爬虫库也没有 学习,导致在完成任务2过程中出现了许许多多大大小小的改进: 简要学习前端(HTML,JavaScript,CSS)的一些知识内容,了解常用的一些爬虫框架以及相关库的使用。

第三部分 实训效果

一、实训任务1

  1. 五月份南京最高温最大值、最低温最小值和最大温差及对应的日期。

  1. 五月份不同天气对应的天数和雨天的百分比。

3. 五月份不同风向对应的天数和出现最多的风向。

  1. 五月份风力超过3级的天数。

  1. 绘制五月份南京高温、低温(柱状)及温差(折线)示意图,并标注温差最大的点。

法一: ⮚ 出现的问题:y轴的刻度问题

法二:

6.绘制五月份南京天气情况分布饼图。

7.作柱状图比较5月、6月、7月三个月的最高温度和最低温度。

二、实训任务2

从天气后报网(http://www.tianqihoubao.com/)爬取自己家乡所属城市过去一个月每天的最高温度和最低温度, 并绘制一个月内最高温度和最低温度的走势比较图。

第四部分 实训总结

1 结束语

  1. 通过这次的实训周的学习,收获了许多。这周的实训任务是对天气情况进行数据可视化操作,这不乏就用到了python语言。鉴于此前学过Java语言和自学了python语言自然就得心应手,也更能检验自己之前学的如何,以及将所学的运用到项目开发实践中。之后还有个扩展题,是运用到了爬虫技术,先爬取网页上的天气数据,将网页上爬取出来的数据进行可视化分析,这也就增加了一些难度。经过对爬虫的初步学习了解,大致能够了解爬虫的一些原理,并能够爬取部分一些简单的网页。总结一下这次的实训,收获如下:
  2. 通过对python的再学习,更发现了python语言的优势。除了简单易读,python最大的特点就是具有丰富强大的库,因此常常被人称为“胶水语言”。比如,读取csv文件用到csv库,对数据可视化需要用到的库就有matplotlib库,对数据处理分析用到numpy库等,对于爬虫,就有用到requests库,也知道了r equests主要是构造网络请求,获取网页内容,后续的解析、存储都要另行解决。scrapy 是框架,可以说是爬虫的打包方案,除了上述构造请求、拿内容、解析、存储外,还可以做分布式爬虫,挂代理,等等一大堆功能。BeautifulSoup是一个解析库,它也可以很好地从URL中获取内容,并且可以毫无麻烦地解析它们中的某些部分。它只会提取您给出的URL的内容,然后停止。它不会抓取,除非您手动将其放入具有特定条件的无限循环中。
  3. 这次实训不仅检验了我此前对专业知识学习的能力,也巩固了学的知识并能够学以致用,还找出了学习过程中以及开发中出现的问题。比如说Python基础没有学的深入,对一些函数,字典等基础理解不够透彻,导致在编写程序代码中遇到各种大大小小的问题,即使如此,通过老师的指导,百度及CSDN的查找和自我的思考,最终基本都解决了出现的问题,并加深了印象。
  4. 结束了这次的实训周的学习,完成了本次的实训任务,到这里就结束啦,总的来说,比较顺利的完成了这次的实训任务,学习到了很多专业上的新知识,积累了项目开发的经验和提高自身编写代码的能力,通过之前的理论真正的运用到现在的实操上,编写开发出真正有用的程序。这次实训结束之后,我也领悟到了“学以致用”,“学无止境”的含义,在今后的学习中不断加强自我学习能力,提高自己的专业能力,继续努力,不断提升自己!

附录A 程序清单

所需要的nanjing_weather.csv文件在:南京的天气情况的数据文件-Python文档类资源-CSDN下载

任务一:

1)五月份南京最高温最大值、最低温最小值和最大温差及对应的日期。代码如下:

  1. # -*- codeing utf-8 -*-
  2. # @Time : 2020/12/30 10:20
  3. # @Author : 小刘
  4. # @File : 第一题.py # @Software : PyCharm
  5. import csv
  6. import numpy as np
  7. #读取CSV中气象数据
  8. #title=['日期','最高温度','最低温度','天气','风向','风力']
  9. weather_nj=[]
  10. with open("nanjing_weather.csv","r") as file:
  11. reader=csv.reader(file)
  12. for row in reader:
  13. weather_nj.append(row)
  14. # print(weather_nj)
  15. #切片五月的温度列表、天气列表和风列表
  16. #temps=[[item[0],item[1],item[2],str(eval(item[1])-eval(item[2]))] for item in weather_nj if item[0][5]=='5']
  17. temps=[]
  18. for item in weather_nj:
  19. if item[0][5]=='5': #判断是否为5,即五月份
  20. temp=[item[0],item[1],item[2],str(eval(item[1])-eval(item[2]))]
  21. temps.append(temp)
  22. #print(temps)#打印时间,最高温,最低温,日温差
  23. ##五月的最高温集合
  24. highs = [] #创建一个列表
  25. for row in temps:
  26. high = int(row[1]) #将列表中的字符串 转换成数值型
  27. highs.append(high) #获得第二行的 的数据, 即每天的最高温度
  28. max = np.max(highs)
  29. #print(temps[0])
  30. print("五月份南京最热温度是:%d℃"%max)
  31. #五月的最低温集合
  32. shorts = []
  33. for row in temps:
  34. short = int((row[2]))
  35. shorts.append(short)
  36. min = np.min(shorts)
  37. print("五月份南京最低温度是:%d℃"%min)
  38. #温差
  39. temp = []
  40. for row in temps:
  41. t = int(int(row[1])-int(row[2]))
  42. temp.append(t)
  43. max1=np.max(temp)
  44. print("五月份南京的最大温差为:%d℃"%max1)
  45. #最高气温最大值和最低气温最小值的日期
  46. date = []
  47. for row in temps:
  48. date = row[0]
  49. #date.append(d)
  50. if int(row[1])==max:
  51. print("日期:%s"%date,"最高气温:%d℃"%max)
  52. elif int(row[2])==min:
  53. print("日期:%s"%date,"最低气温:%d℃"%min)
  54. #五月份南京最大温差所对应的日期
  55. date = []
  56. for row in temps:
  57. date = row [0]
  58. if int (int(row[1])-int(row[2])) == max1:
  59. print("日期:%s"%date,"温差最大:%d℃"%max1)

运行结果如下

2)五月份不同天气对应的天数和雨天的百分比。代码如下:

  1. # -*- codeing utf-8 -*-
  2. # @Time : 2020/12/30 10:26
  3. # @Author : 小刘
  4. # @File : 第二题.py
  5. # @Software : PyCharm
  6. #引入包
  7. import csv
  8. nj=[]
  9. with open("nanjing_weather.csv",'r') as file:
  10. reader=csv.reader(file)
  11. for row in reader:
  12. nj.append(row)
  13. #weather列表将筛选出五月的存放进来
  14. weather=[]
  15. for item in(nj):
  16. if item[0][5]=='5':
  17. temp=[item[0],item[1],item[2],item[3]]
  18. weather.append(temp)
  19. cloudy = 0 #多云
  20. shower = 0 #阵雨
  21. overcast = 0 #阴天
  22. sun = 0 #晴
  23. thundershower = 0 #雷阵雨
  24. lightrain = 0 #小到中雨
  25. #遍历列表,if判断天气,如果true,则累加
  26. for i in range(len(weather)):
  27. if weather[i][3] =='晴':
  28. sun+=1
  29. elif weather[i][3] =='多云':
  30. cloudy+=1
  31. elif weather[i][3] =='阵雨':
  32. shower+=1
  33. elif weather[i][3] =='阴':
  34. overcast+=1
  35. elif weather[i][3] =='雷阵雨':
  36. thundershower+=1
  37. elif weather[i][3] =='小到中雨':
  38. lightrain+=1
  39. w=[('多云',cloudy),('阵雨',shower),('阴',overcast),('晴',sun),('雷阵雨',thundershower),('小到中雨',lightrain)]
  40. rain = shower+thundershower+lightrain #雨天的天数
  41. sum=rain+cloudy+overcast+sun #总天数
  42. a=round((rain/sum)*100,2) #round方法保留小数后两位
  43. print("南京五月份的天气情况为:\n",w,"\n其中,雨天出现的比例为:%s%%"%a)

运行结果如下

3)五月份不同风向对应的天数和出现最多的风向。代码如下:

  1. # -*- codeing utf-8 -*-
  2. # @Time : 2020/12/30 13:54
  3. # @Author : 小刘
  4. # @File : 第三题.py
  5. # @Software : PyCharm
  6. import csv
  7. import numpy as np
  8. nj=[]
  9. with open("nanjing_weather.csv",'r') as file:
  10. reader=csv.reader(file)
  11. for row in reader:
  12. nj.append(row)
  13. #weather列表将筛选出五月的存放进来
  14. weather=[]
  15. for item in(nj):
  16. if item[0][5]=='5':
  17. temp=[item[0],item[1],item[2],item[3],item[4],item[5]]
  18. weather.append(temp)
  19. #初始化风向次数
  20. SouthWind = 0 #南风
  21. SouthEast = 0 #东南风
  22. EastWind = 0 #东风
  23. NorthWest = 0 #西北风
  24. NorthWind = 0 #北风
  25. WestWind = 0 #西风
  26. NorthEast = 0 #东北风
  27. SouthWest = 0 #西南风
  28. #遍历列表,if判断风向,如果true,则累加风向次数
  29. for i in range(len(weather)):
  30. if weather[i][4] =='南风':
  31. SouthWind += 1
  32. elif weather[i][4] =='东南风':
  33. SouthEast += 1
  34. elif weather[i][4] =='东风':
  35. EastWind += 1
  36. elif weather[i][4] =='西北风':
  37. NorthWest += 1
  38. elif weather[i][4] =='北风':
  39. NorthWind += 1
  40. elif weather[i][4] =='西风':
  41. WestWind += 1
  42. elif weather[i][4] == '东北风':
  43. NorthEast += 1
  44. elif weather[i][4] == '西南风':
  45. SouthWest += 1
  46. a=[('南风',SouthWind),('东南风',SouthEast),('东风',EastWind),('西北风',NorthWest),('北风',NorthWind),('西风',WestWind),('东北风',NorthEast),('西南风',SouthWest)]
  47. print("南京五月的刮风情况为:\n",a,"\n",('即:南风%d天'%SouthWind),('东南风%d天'%SouthEast),('东风%d天'%EastWind),('西北风%d天'%NorthWest),('北风%d天'%NorthWind),('西风%d天'%WestWind),('东北风%d天'%NorthEast),('西南风%d天'%SouthWest))
  48. #求最多风向的次数以及对应的风向
  49. windly = []
  50. for i in a:
  51. w = int(i[1])
  52. windly.append(w)
  53. m = np.max(windly)
  54. for i in a:
  55. if i[1]==m:
  56. wind=i
  57. print("南京五月份刮得最多的风是%s,一共刮了%d天。"%(wind[0],wind[1]))

运行结果如下

4)五月份风力超过3级的天数。代码如下:

  1. # -*- codeing utf-8 -*-
  2. # @Time : 2020/12/30 15:25
  3. # @Author : 小刘
  4. # @File : 第四题.py
  5. # @Software : PyCharm import csv
  6. #列表存放csv文件中的
  7. nj=[]
  8. with open("nanjing_weather.csv",'r') as file:
  9. reader=csv.reader(file)
  10. for row in reader:
  11. nj.append(row)
  12. #weather列表将筛选出五月的存放进来
  13. weather=[]
  14. for item in nj:
  15. if item[0][5]=='5':
  16. temp=[item[0],item[1],item[2],item[3],item[4],item[5]]
  17. weather.append(temp)
  18. #定义一个空列表,遍历weather,将遍历后超过数字超过3的进行累加,计算风力超过三级的
  19. WindPower=0
  20. for item in weather:
  21. if item[5][0]>'3':
  22. WindPower+=1
  23. print('南京五月份共有%d天风力超过3级'%WindPower)

运行结果:

5)绘制五月份南京高温、低温(柱状)及温差(折线)示意图,并标注温差最大的点。代码如下:

  1. # -*- codeing utf-8 -*-
  2. # @Time : 2020/12/31 16:02
  3. # @Author : 小刘
  4. # @File : 第五题.py
  5. # @Software : PyCharm
  6. import csv
  7. import matplotlib
  8. import numpy as np
  9. import matplotlib.pyplot as plt
  10. #读取CSV中气象数据
  11. #title=['日期','最高温度','最低温度','天气','风向','风力']
  12. weather_nj=[]
  13. with open("nanjing_weather.csv","r") as file:
  14. reader=csv.reader(file)
  15. for row in reader:
  16. weather_nj.append(row)
  17. # print(weather_nj)
  18. #切片五月的温度列表、天气列表和风列表
  19. #temps=[[item[0],item[1],item[2],str(eval(item[1])-eval(item[2]))] for item in weather_nj if item[0][5]=='5']
  20. temps=[]
  21. for item in weather_nj:
  22. if item[0][5]=='5':
  23. temp=[item[0],item[1],item[2],str(eval(item[1])-eval(item[2]))]
  24. temps.append(temp)
  25. #print(temps)
  26. ##五月的最高温集合
  27. highs = [] #创建一个列表
  28. for row in temps:
  29. high = int(row[1]) #将列表中的字符串 转换成数值型
  30. highs.append(high) #获得第二行的 的数据, 即每天的最高温度 max = np.max(highs)
  31. #print(temps[0])
  32. print("五月份南京最热温度是:%d℃"%max)
  33. #五月的最低温集合
  34. shorts = []
  35. for row in temps:
  36. short = int((row[2]))
  37. shorts.append(short)
  38. min = np.min(shorts)
  39. print("五月份南京最低温度是:%d℃"%min)
  40. #温差
  41. temp = []
  42. for row in temps:
  43. t = int(int(row[1])-int(row[2]))
  44. temp.append(t)
  45. max1=np.max(temp)
  46. print("五月份南京的最大温差为:%d℃"%max1)
  47. #最高气温最大值和最低气温最小值的日期
  48. date = []
  49. for row in temps:
  50. date = row[0]
  51. #date.append(d)
  52. if int(row[1])==max:
  53. print("日期:%s"%date,"最高气温:%d℃"%max)
  54. elif int(row[2])==min:
  55. print("日期:%s"%date,"最低气温:%d℃"%min)
  56. #五月份南京最大温差所对应的日期
  57. date = []
  58. for row in temps:
  59. date = row [0]
  60. if int (int(row[1])-int(row[2])) == max1:
  61. print("日期:%s"%date,"温差最大:%d℃"%max1)
  62. matplotlib.rcParams['font.sans-serif'] = ['SimHei']#字体 fig=plt.figure(dpi=128,figsize=(10,5)) #设置窗口大小
  63. x =np.arange(1,32)
  64. y2=highs
  65. y1=shorts
  66. wencha=temp
  67. bar_width = 0.4
  68. plt.bar(x , height=y1, label='低温', color='lightblue', alpha=0.8, width=bar_width,zorder=0)
  69. plt.bar(x - bar_width, height=y2, label='高温', color='red', alpha=0.3, width=bar_width,zorder=0)
  70. plt.plot(x,wencha,label='温差',zorder=0)
  71. #标注
  72. plt.scatter(26,14,s=50,color="red",label='最大温差',zorder=1)
  73. plt.plot([26,0], [14,14],'g--',[26,26], [14,0], 'g--', lw=2)
  74. plt.annotate("温差最大为:14",color="red",xy=(26,14),xycoords='data',xytext=(+30,-30),textcoords='offset points',fontsize=16,arrowprops=dict(arrowstyle="->",connectionstyle='arc3,rad=0.9'))
  75. plt.annotate("",color="black",xy=(28,14),xycoords='data',xytext=(+30,-30),textcoords='offset points',fontsize=10,arrowprops=dict(arrowstyle="->",connectionstyle='arc3,rad=0.9'))
  76. plt.scatter(28,14,s=50,color="red",label='最大温差',zorder=1)
  77. plt.plot([28,26], [14,14],'g--',[28,28], [14,0], 'g--', lw=2)
  78. plt.title("南京五月份高低气温及温差示意图")
  79. # 为两条坐标轴设置名称
  80. plt.xlabel("日期/日")
  81. plt.ylabel("温度/摄氏度")
  82. # 显示图例
  83. plt.xlim(0,32)
  84. plt.legend()
  85. plt.show()

运行结果如下:

6)绘制五月份南京天气情况分布饼图。代码如下:

  1. # -*- codeing utf-8 -*-
  2. # @Time : 2020/12/30 20:51
  3. # @Author : 小刘
  4. # @File : 第六题.py
  5. # @Software : PyCharm
  6. #引入包
  7. import matplotlib.pyplot as plt
  8. import csv
  9. nj=[]
  10. with open("nanjing_weather.csv",'r') as file:
  11. reader=csv.reader(file)
  12. for row in reader:
  13. nj.append(row)
  14. #weather列表将筛选出五月的存放进来
  15. weather=[]
  16. for item in(nj):
  17. if item[0][5]=='5':
  18. temp=[item[0],item[1],item[2],item[3]]
  19. weather.append(temp)
  20. #定义并初始化各天气情况
  21. cloudy = 0#多云
  22. shower = 0#阵雨
  23. overcast = 0#阴天
  24. sun = 0#晴
  25. thundershower = 0#雷阵雨
  26. lightrain = 0#小到中雨
  27. #遍历列表,if判断天气,如果true,则累加
  28. for i in range(len(weather)):
  29. if weather[i][3] =='多云':
  30. cloudy+=1
  31. elif weather[i][3] =='阵雨':
  32. shower+=1
  33. elif weather[i][3] == '晴':
  34. sun += 1
  35. elif weather[i][3] =='阴':
  36. overcast+=1
  37. elif weather[i][3] =='雷阵雨':
  38. thundershower+=1
  39. elif weather[i][3] =='小到中雨':
  40. lightrain+=1
  41. #将得到的天气出现的次数放进集合w中
  42. w=[]
  43. w=[('多云',cloudy),('阵雨',shower),('阴',overcast),('晴',sun),('雷阵雨',thundershower),('小到中雨',lightrain)]
  44. rain = shower+thundershower+lightrain #雨天的天数
  45. sum=rain+cloudy+overcast+sun #总天数
  46. a=round((rain/sum)*100,2) #round方法保留小数后两位
  47. print("南京五月份的天气情况为:\n",w,"\n其中,雨天出现的比例为:%s%%"%a)
  48. #计算五月份各天气情况的占比
  49. cloudy = (cloudy/sum)*100
  50. shower = (shower/sum)*100
  51. sun = (sun/sum)*100
  52. overcast = (overcast/sum)*100
  53. thundershower = (thundershower/sum)*100
  54. lightrain = (lightrain/sum)*100
  55. #开始画饼图
  56. plt.rcParams['font.sans-serif']=['SimHei']#正常显示中文汉字
  57. plt.rcParams['figure.figsize'] = [12,8] #图的大小
  58. plt.rcParams['legend.fontsize'] = 15 #右下角图例大小
  59. labels='多云','阵雨','阴','晴','雷阵雨','小到中雨' #每部分的标签名
  60. sizes=[cloudy,shower,sun,overcast,thundershower,lightrain] #占比大小
  61. explode=(0.1,0.1,0.1,0.1,0.1,0.1) #分割出第二个分片,0表不分割,数值表示分割多少
  62. fig1,ax1=plt.subplots() #建立主画布,并在其上绘制子图
  63. ax1.pie(sizes,explode=explode,labels=labels,autopct='%1.2f%%', shadow=True,startangle=90,textprops={"fontsize":12,"color":"k"})
  64. #绘制饼状图,%1.2f%%保留百分比后的两位小数
  65. #textprops={"fontsize":12,"color":"k"}设置饼的字体和颜色
  66. ax1.axis('equal') #等轴绘制,保证饼图绘制出来以后是圆形
  67. plt.title("南京五月份天气情况分布图",size=20)#标题,标题大小为20
  68. plt.legend(loc='lower right')#图例,放在右下方
  69. plt.show() #显示绘制的图

运行结果如下:

7)作柱状图比较5月、6月、7月三个月的最高温度和最低温度。代码如下:

  1. # -*- codeing utf-8 -*-
  2. # @Time : 2020/12/29 20:12
  3. # @Author : 小刘
  4. # @File : 7.py
  5. # @Software : PyCharm
  6. #引入库
  7. import csv
  8. import numpy as np
  9. import matplotlib.pyplot as plt
  10. plt.rcParams["font.sans-serif"]=["SimHei"]#显示中文标签
  11. plt.rcParams["axes.unicode_minus"]=False
  12. #创建weather_nj的集合
  13. weather_nj = []
  14. #打开csv文件并读取,"r"表示只读,as将文件取个别名,便于写代码
  15. with open("nanjing_weather.csv","r") as file:
  16. reader = csv.reader(file)
  17. for i in reader:
  18. weather_nj.append(i)
  19. # print(i) #打印遍历后的天气情况
  20. #==========================================================
  21. print("五月的气温:")
  22. #创建temps集合,用于存放索引切片后的数组集合数据,切片五月份的天气情况(日期,最高温,最低温,天气,风向,风级)
  23. temps = [] #创建空列表temps
  24. for item in weather_nj: #遍历
  25. if item[0][5] == "5": #五月份
  26. temp = [item[0],item[1],item[2],str(eval(item[1])-eval(item[2]))]#eval去引号,并将最高温和最低温相减得到温差值,即得到temp[3]为温差
  27. temps.append(temp) #获得temp数据
  28. # print(temp) #打印temp
  29. #创建一个hights集合,用于存放最高气温数据 highs = [] #创建空列表hights
  30. for h in temps: #遍历temps列表
  31. Max = int(h[1]) #将第二列列表类型转换为int数值类型并存放在Max
  32. highs.append(Max) #获得第二列的数据,即最高气温
  33. max = np.max(highs) #得到最高气温中的最大值
  34. #print(max) #打印最高气温的最大值
  35. #创建一个lows集合,用于存放最低气温数据
  36. lows = [] #创建空列表lows
  37. for l in temps: #遍历temps
  38. Min = int(l[2]) #将第三列列表类型转换为int数值类型
  39. lows.append(Min) #获得第三列数据,即最低气温
  40. min = np.min(lows) #得到最低气温的最小值
  41. #print(min) #打印最低气温的最小值
  42. #根据最高气温和最低气温的最值来求出对应的日期
  43. for row in temps:
  44. date = row[0]
  45. if int(row[1])== max:
  46. print("最高温度:",date,max)
  47. elif int(row[2])==min:
  48. print("最低温度:",date,min)
  49. #==========================================================
  50. print("六月的气温:")
  51. #创建temps集合,用于存放索引切片后的数组集合数据,切片五月份的天气情况(日期,最高温,最低温,天气,风向,风级)
  52. temps = [] #创建空列表temps
  53. for item in weather_nj: #遍历
  54. if item[0][5] == "6": #五月份
  55. temp = [item[0],item[1],item[2],str(eval(item[1])-eval(item[2]))]#eval去引号,并将最高温和最低温相减得到温差值,即得到temp[3]为温差
  56. temps.append(temp) #获得temp数据
  57. # print(temp) #打印temp
  58. #创建一个hights集合,用于存放最高气温数据
  59. highs = [] #创建空列表hights
  60. for h in temps: #遍历temps列表
  61. Max = int(h[1]) #将第二列列表类型转换为int数值类型并存放在Max
  62. highs.append(Max) #获得第二列的数据,即最高气温
  63. max = np.max(highs) #得到最高气温中的最大值
  64. #print(max) #打印最高气温的最大值
  65. #创建一个lows集合,用于存放最低气温数据
  66. lows = [] #创建空列表lows
  67. for l in temps: #遍历temps
  68. Min = int(l[2]) #将第三列列表类型转换为int数值类型
  69. lows.append(Min) #获得第三列数据,即最低气温
  70. min = np.min(lows) #得到最低气温的最小值
  71. #print(min) #打印最低气温的最小值
  72. #根据最高气温和最低气温的最值来求出对应的日期
  73. for row in temps:
  74. date = row[0]
  75. if int(row[1])== max:
  76. print("最高温度:",date,max)
  77. elif int(row[2])==min:
  78. print("最低温度:",date,min)
  79. #==========================================================
  80. print("七月的气温:")
  81. #创建temps集合,用于存放索引切片后的数组集合数据,切片五月份的天气情况(日期,最高温,最低温,天气,风向,风级)
  82. temps = [] #创建空列表temps
  83. for item in weather_nj: #遍历
  84. if item[0][5] == "7": #五月份
  85. temp = [item[0],item[1],item[2],str(eval(item[1])-eval(item[2]))]#eval去引号,并将最高温和最低温相减得到温差值,即得到temp[3]为温差
  86. temps.append(temp) #获得temp数据
  87. # print(temp) #打印temp
  88. #创建一个hights集合,用于存放最高气温数据
  89. highs = [] #创建空列表hights
  90. for h in temps: #遍历temps列表
  91. Max = int(h[1]) #将第二列列表类型转换为int数值类型并存放在Max
  92. highs.append(Max) #获得第二列的数据,即最高气温
  93. max = np.max(highs) #得到最高气温中的最大值
  94. #print(max) #打印最高气温的最大值
  95. #创建一个lows集合,用于存放最低气温数据
  96. lows = [] #创建空列表lows
  97. for l in temps: #遍历temps
  98. Min = int(l[2]) #将第三列列表类型转换为int数值类型
  99. lows.append(Min) #获得第三列数据,即最低气温
  100. min = np.min(lows) #得到最低气温的最小值
  101. #print(min) #打印最低气温的最小值
  102. #根据最高气温和最低气温的最值来求出对应的日期
  103. for row in temps:
  104. date = row[0]
  105. if int(row[1])== max:
  106. print("最高温度:",date,max)
  107. elif int(row[2])==min:
  108. print("最低温度:",date,min)
  109. #==========================================================
  110. x0=[5,6,7]
  111. x1=[5,6,7]
  112. x2 = [5,6,7]
  113. x1=[i - 0.2 for i in x1]
  114. x2=[i + 0.4 for i in x1]
  115. y1=[14,18,23]
  116. y2=[34,33,40]
  117. plt.bar(x1 ,y1,width=0.3,alpha=0.3)
  118. plt.bar(x2,y2,width=0.3,alpha=0.3)
  119. #最低温度标注
  120. plt.text(x1[0], y1[0], y1[0], ha='center', va='bottom', fontsize=10)#设置标注
  121. plt.text(x1[1], y1[1], y1[1], ha='center', va='bottom', fontsize=10)#设置标注
  122. plt.text(x1[2], y1[2], y1[2], ha='center', va='bottom', fontsize=10)#设置标注
  123. #最大温度标注
  124. plt.text(x2[0], y2[0], y2[0], ha='center', va='bottom', fontsize=10)#设置标注
  125. plt.text(x2[1], y2[1], y2[1], ha='center', va='bottom', fontsize=10)#设置标注
  126. plt.text(x2[2], y2[2], y2[2], ha='center', va='bottom', fontsize=10)#设置标注
  127. #标题
  128. plt.title("五,六,七三个月的最高温和最低温比较",size=20)
  129. plt.xlabel("月份/月",size=18)#size设置字体大小
  130. plt.ylabel("温度/℃",size=18)
  131. #设置x刻度名称
  132. tick_label = ["五月","六月","七月"]
  133. plt.xticks(x0, tick_label,size=10)
  134. #结束画图,将图显示出来
  135. plt.show()

运行结果如下:

任务二:

爬取家乡2020年12月一整月的天气预报情况

  1. # -*- codeing utf-8 -*-
  2. # @Time : 2020/12/31 18:57
  3. # @Author : 小刘
  4. # @File : 上饶天气.py
  5. # @Software : PyCharm
  6. #爬取网页进行获取数据,网址:http://www.tianqihoubao.com/lishi/shangrao/month/202012.html
  7. #源码分析
  8. #导入所需要的库
  9. import requests
  10. from bs4 import BeautifulSoup
  11. import pandas as pd
  12. def get_data(url):
  13. resp = requests.get(url)
  14. html = resp.content.decode('gbk')
  15. soup = BeautifulSoup(html,'html.parser')
  16. tr_list = soup.find_all('tr')
  17. dates,condition,temp =[],[],[]
  18. for data in tr_list[1:]:
  19. sub_data = data.text.split() #删除空格
  20. dates.append(sub_data[0])
  21. condition.append(''.join(sub_data[1:3]))
  22. temp.append(''.join(sub_data[3:6]))
  23. _data = pd.DataFrame()
  24. _data['日期'] = dates
  25. _data['天气状况'] = condition
  26. _data['气温'] = temp
  27. _data = _data.drop_duplicates() # 去重
  28. return _data
  29. # city = input("请输入要查询的城市拼音:")
  30. # year = input("请输入要查询的年份")
  31. # month = input("请输入要查询的月份:")
  32. # print(f"{city}{year}年{month}月的历史天气情况:")
  33. # url = f'http://www.tianqihoubao.com/lishi/{city}/month/{year}+{month}.html'
  34. url = 'http://www.tianqihoubao.com/lishi/shangrao/month/202012.html'
  35. data_1_month = get_data(url)
  36. #data_2_month = get_data('http://www.tianqihoubao.com/lishi/shangrao/mouth/202010.html')
  37. #data_3_month = get_data('http://www.tianqihoubao.com/lishi/shangrao/mouth/202011.html')
  38. data = pd.concat([data_1_month]).reset_index()
  39. data.index += 1
  40. #print("序号",end="")
  41. print("***上饶的2020年12月天气情况***\n",data)
  42. data.to_csv('shangrao.csv',index=False,encoding='utf-8') # 保存文件

运行结果如下:

可视化代码:

  1. # -*- codeing utf-8 -*-
  2. # @Time : 2021/1/1 12:47
  3. # @Author : 小刘
  4. # @File : 天气可视化.py
  5. # @Software : PyCharm
  6. #引入包
  7. import csv
  8. import matplotlib
  9. import numpy as np
  10. import matplotlib.pyplot as plt
  11. #读取CSV中气象数据
  12. weather_sr=[]
  13. with open("shangrao.csv","r",encoding="utf-8") as file:
  14. next(file) #跳过第一行
  15. reader=csv.reader(file)
  16. for row in reader:
  17. weather_sr.append(row)
  18. print(weather_sr)
  19. #将最高温和最低温筛选出来
  20. weather=[]
  21. for item in(weather_sr):
  22. temp=item[3]
  23. weather.append(temp)
  24. print(weather)
  25. #温度
  26. h,l = [],[]
  27. for i in weather:
  28. h.append(int(i.split('℃')[0]))
  29. l.append(int(i.split('℃')[1][1:]))
  30. print(h)
  31. #日期
  32. date = np.arange(1,len(h)+1,1)
  33. #开始绘图
  34. plt.figure(dpi=128,figsize=(10,6)) #设置窗口大小
  35. #画出l1,l2折线图
  36. l1,=plt.plot(date,h,color='red',label="最高温度",alpha=0.5)
  37. l2,=plt.plot(date,l,color='lightblue',label="最低温度")
  38. #x轴和y轴的取值范围
  39. plt.xlim(0,32)
  40. plt.ylim(-10,20)
  41. #显示中文标签
  42. plt.rcParams["font.sans-serif"]=["SimHei"]
  43. plt.rcParams["axes.unicode_minus"]=False
  44. #标注最高温
  45. for i in range(0,len(h)):
  46. plt.text(date[i], h[i], h[i], ha='center', va='bottom', fontsize=10)
  47. #标注最低温
  48. for j in range(0,len(l)):
  49. plt.text(date[j], l[j], l[j], ha='center', va='bottom', fontsize=10)
  50. plt.title("上饶12月的天气最高温和最低温的趋势图",size=14)
  51. plt.xlabel("日期/日",size=14)
  52. plt.ylabel("温度/摄氏度",size=14)
  53. #plt.legend(l1,"最高温度")
  54. #plt.legend(l2,"最低温度")
  55. plt.legend()
  56. plt.show()

运行结果:

参考文献

标签: p2p linq 蓝桥杯

本文转载自: https://blog.csdn.net/weixin_45971950/article/details/123025960
版权归原作者 bug智造 所有, 如有侵权,请联系我们删除。

“大数据技术原理与应用之可视化实训”的评论:

还没有评论