(一)python爬网页制作题库
前言
太难了,一直发不出来,求求了
一、python爬网页
个人觉得难度:爬题库 < 爬贴吧图片 < 爬文档网站的文档
可能是因为各种答案都是在公众号之类的地方,不需要技术破解,爬着简单
import requests
from lxml import etree
if __name__ =='__main__':
url ='https://www.53shop.com/news/131/kes131536.html'
rs = requests.get(url)
root = etree.HTML(rs.content)
texts = root.xpath('//div[@class="content"]/p/text()')
以上程序爬的网页是:https://www.53shop.com/news/131/kes131536.html
1.打开网页,可以发现此页面的文字不能复制粘贴,按f12,点击左上角(长方形+箭头)的图标,再点击页面中题目的位置,就可以定位到相关代码。
2.看到所有题都在div class=“content”里,且文本是在p标签里
所以,要爬别的网页的时候,只需要修改三个地方:
url = ‘https://www.53shop.com/news/131/kes131536.html ’
texts = root.xpath(’//div[@class="content "]/p /text()’)
自己尝试一下吧~
二、写入txt文档
f =open('tiku.txt','a', encoding='utf-8')#以追加的方式打开文本,不存在则创建for text in texts:#循环str(text).replace('\n','')#去除原文本里的回车
f.write(text+'\n')#将文本按行写入print(text)#打印文本
f.close()#关闭文件
总结
又完成一篇,深刻认识到自己的不足,虽然有足够的热情与耐心去钻研不懂的东西,但是又不想按部就班的看教程,没有系统的学习总会是事倍功半,希望随着写作,能改变自己的学习习惯。
下一篇是将txt中“问题-选项-答案”的格式转换为json键值对{“wenti”:“daan”}的形式,为之后自动答题做准备。
版权归原作者 跪求指点 所有, 如有侵权,请联系我们删除。