一、python爬网页保存txt文档

（一）python爬网页制作题库

前言

太难了，一直发不出来，求求了

一、python爬网页

个人觉得难度：爬题库 < 爬贴吧图片 < 爬文档网站的文档
可能是因为各种答案都是在公众号之类的地方，不需要技术破解，爬着简单

import requests
from lxml import etree
if __name__ =='__main__':
    url ='https://www.53shop.com/news/131/kes131536.html'
    rs = requests.get(url)
    root = etree.HTML(rs.content)
    texts = root.xpath('//div[@class="content"]/p/text()')

以上程序爬的网页是：https://www.53shop.com/news/131/kes131536.html

1.打开网页，可以发现此页面的文字不能复制粘贴，按f12，点击左上角（长方形+箭头）的图标，再点击页面中题目的位置，就可以定位到相关代码。

2.看到所有题都在div class=“content”里，且文本是在p标签里

所以，要爬别的网页的时候，只需要修改三个地方：
url = ‘https://www.53shop.com/news/131/kes131536.html ’
texts = root.xpath(’//div[@class="content "]/p /text()’)

自己尝试一下吧~

二、写入txt文档

    f =open('tiku.txt','a', encoding='utf-8')#以追加的方式打开文本，不存在则创建for text in texts:#循环str(text).replace('\n','')#去除原文本里的回车
        f.write(text+'\n')#将文本按行写入print(text)#打印文本
    f.close()#关闭文件

总结

又完成一篇，深刻认识到自己的不足，虽然有足够的热情与耐心去钻研不懂的东西，但是又不想按部就班的看教程，没有系统的学习总会是事倍功半，希望随着写作，能改变自己的学习习惯。

下一篇是将txt中“问题-选项-答案”的格式转换为json键值对{“wenti”:“daan”}的形式，为之后自动答题做准备。

标签： js android

本文转载自: https://blog.csdn.net/tfnmdmx/article/details/115407765
版权归原作者 跪求指点 所有，如有侵权，请联系我们删除。

一、python爬网页保存txt文档

（一）python爬网页制作题库

前言

一、python爬网页

二、写入txt文档

总结

发表评论

“一、python爬网页保存txt文档”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航