1、在命令提示符环境使用pip install scrapy命令安装Python扩展库scrapy,详见Python使用Scrapy爬虫框架爬取天涯社区小说“大宗师”全文
2、使用下图中的命令创建爬虫项目
3、进入爬虫项目文件夹,执行下面的命令创建爬虫
现在,爬虫项目的文件夹结构如下图所示
4、使用浏览器打开网址http://www.weather.com.cn/shandong/index.shtml,然后下拉,找到“城市预报列表”
5、在页面上单击鼠标右键,选择“查看网页源代码”,然后找到与“城市预报列表”对应的位置
6、选择并打开山东省内任意城市的天气预报页面,此处以烟台为例
7、在页面上单击鼠标右键,选择“查看网页源代码”,找到与上图中天气预报相对应的位置
8、修改items.py文件,定义要爬取的内容,红色方框内是自己写的代码
9、修改爬虫文件everyCityinSD.py,定义如何爬取内容,其中用到的规则参考前面对页面的分析
10、修改pipelines.py文件,把爬取到的数据写入文件weather.txt,红色方框内是自己写的代码
11、修改settings.py文件,分派任务,指定处理数据的程序,红色方框内是自己写的代码
12、切换到命令提示符环境,执行下面的命令运行爬虫程序
稍等几秒钟,生成包含各城市天气预报数据的文件weather.txt
其中内容为
----------喜大普奔----------
1、董付国老师Python系列教材,亚马逊、京东、当当、天猫均有销售:
1)《Python程序设计(第2版)》(2018年5月第6次印刷)
出版社官方链接(亚马逊、京东、当当均有销售):https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-16232114860.18.24a52226hIi8Bj&id=534581929248&rn=9311dcbc68fffcf57b7ae352800e485d&abbucket=6
2)《Python可以这样学》(2018年2月第5次印刷)(本书已发行繁体版)
出版社官方链接(亚马逊、京东、当当均有销售):https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-16232114860.16.24a52226hIi8Bj&id=544817105410&rn=9311dcbc68fffcf57b7ae352800e485d&abbucket=6
3)《Python程序设计开发宝典》(2018年2月第3次印刷)
出版社官方链接(亚马逊、京东、当当均有销售):https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-16232114860.52.24a52226hIi8Bj&id=556093887133&rn=9311dcbc68fffcf57b7ae352800e485d&abbucket=6
4)《中学生可以这样学Python》2018年5月第2次印刷)
出版社官方链接(亚马逊、京东、当当均有销售):https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-16232114860.20.24a52226hIi8Bj&id=560808221053&rn=9311dcbc68fffcf57b7ae352800e485d&abbucket=6
5)《Python程序设计基础(第2版)》(2018年5月第2次印刷)
出版社官方链接(亚马逊、京东、当当均有销售):https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-16232114860.24.24a52226hIi8Bj&id=565581275846&rn=9311dcbc68fffcf57b7ae352800e485d&abbucket=6
6)《玩转Python轻松过二级》(2018年5月隆重上架)
出版社官方链接(亚马逊、京东、当当均有销售):https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-16232114860.84.24a52226hIi8Bj&id=569250004069&rn=9311dcbc68fffcf57b7ae352800e485d&abbucket=6
董付国老师6本Python系列图书阅读指南
董付国老师6本Python系列教材被北大、复旦等近百所高校选作教材
热烈庆祝《Python可以这样学》在台湾发行繁体版
2、董老师120课免费视频地址: https://pan.baidu.com/s/1jJeAs8Q 密码: px59
----------相关阅读----------
教学课件
1900页Python系列PPT分享一:基础知识(106页)
1900页Python系列PPT分享二:Python序列(列表、元组、字典、集合)(154页)
1900页Python系列PPT分享三:选择与循环结构语法及案例(96页)
1900页Python系列PPT分享四:字符串与正则表达式(109页)
1900页Python系列PPT分享五:函数设计与应用(134页)
1900页Python系列PPT分享六:面向对象程序设计(86页)
1900页Python系列PPT分享七:文件操作(132页)
1900页Python系列PPT分享八:异常处理结构与程序调试、测试(70页)
报告PPT(163页):基于Python语言的课程群建设探讨与实践
非计算机专业《Python程序设计基础》教学参考大纲
计算机相关专业“Python程序设计”教学大纲(参考)
系列题库分享
1000道Python题库系列分享一(17道)
1000道Python题库系列分享二(48道)
1000道Python题库系列分享三(30道)
1000道Python题库系列分享四(40道)
1000道Python题库系列分享五(40道)
1000道Python题库系列分享六(40道)
1000道Python题库系列分享七(30道)
1000道Python题库系列分享八(29道)
1000道Python题库系列分享九(31道)
1000道Python题库系列分享十(37道)
1000道Python题库系列分享十一(9道)
相关阅读
Python爬虫系列:使用selenium+Edge查询指定城市天气情况
Python爬虫系列:判断目标网页编码的几种方法
BeautifulSoup解析库select方法实例——获取企业信息
Python批量爬取微信公众号文章中的图片
Python裸奔也疯狂:批量爬取中国工程院院士信息
Python爬虫扩展库scrapy选择器用法入门(一)
Python使用Scrapy爬虫框架爬取天涯社区小说“大宗师”全文
Python不使用scrapy框架而编写的网页爬虫程序
Python爬虫扩展库BeautifulSoup4用法精要
版权归原作者 dongfuguo 所有, 如有侵权,请联系我们删除。