0


一、python爬网页保存txt文档

(一)python爬网页制作题库


前言

太难了,一直发不出来,求求了


一、python爬网页

个人觉得难度:爬题库 < 爬贴吧图片 < 爬文档网站的文档
可能是因为各种答案都是在公众号之类的地方,不需要技术破解,爬着简单

import requests
from lxml import etree
if __name__ =='__main__':
    url ='https://www.53shop.com/news/131/kes131536.html'
    rs = requests.get(url)
    root = etree.HTML(rs.content)
    texts = root.xpath('//div[@class="content"]/p/text()')

以上程序爬的网页是:https://www.53shop.com/news/131/kes131536.html

1.打开网页,可以发现此页面的文字不能复制粘贴,按f12,点击左上角(长方形+箭头)的图标,再点击页面中题目的位置,就可以定位到相关代码。

2.看到所有题都在div class=“content”里,且文本是在p标签里

所以,要爬别的网页的时候,只需要修改三个地方:
url = ‘https://www.53shop.com/news/131/kes131536.html
texts = root.xpath(’//div[@class="content "]/p /text()’)

自己尝试一下吧~

二、写入txt文档

    f =open('tiku.txt','a', encoding='utf-8')#以追加的方式打开文本,不存在则创建for text in texts:#循环str(text).replace('\n','')#去除原文本里的回车
        f.write(text+'\n')#将文本按行写入print(text)#打印文本
    f.close()#关闭文件

总结

又完成一篇,深刻认识到自己的不足,虽然有足够的热情与耐心去钻研不懂的东西,但是又不想按部就班的看教程,没有系统的学习总会是事倍功半,希望随着写作,能改变自己的学习习惯。

下一篇是将txt中“问题-选项-答案”的格式转换为json键值对{“wenti”:“daan”}的形式,为之后自动答题做准备。

标签: js android

本文转载自: https://blog.csdn.net/tfnmdmx/article/details/115407765
版权归原作者 跪求指点 所有, 如有侵权,请联系我们删除。

“一、python爬网页保存txt文档”的评论:

还没有评论