订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+
python项目实战 Python编程基础教程系列(零基础小白搬砖逆袭)
说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,可报销****(名额有限,先到先得)。
即将转为付费专栏,更多详细请看,五一或有优惠活动哦。
关于专栏〖Python网络爬虫实战〗转为付费专栏的订阅说明
- 作者:爱吃饼干的小白鼠。Python领域优质创作者,2022年度博客新星top100入围,荣获多家平台专家称号。
最近更新
〖Python网络爬虫实战㉘〗- Selenium案例实战(二)
🌟上节回顾
我们在上一节,为大家演示了selenium的实战,今天,我们将会带大家继续实现selenium的项目实战,我们更加深刻的了解selenium的优势是什么。
⭐️Selenium案例实战(三)
今天,我们就用python+Selenium来模拟人来做题,实现鼠标的点击行为。
🌟环境使用
- python 3.9
- pycharm
🌟模块使用
- requests
- selenium
- time
- 谷歌驱动
🌟说明
✨一、谷歌驱动安装
1.下载网址
CNPM Binaries Mirror
2.文件安装(放置)位置
可以把这个文件理解成一个脚本入口。说它是安装,其实就是把下载的 chromedriver.exe 文件复制到相应的位置。
将文件复制到两个位置:1...\python\Scripts复制一份到安装Python的文件夹中的Scripts文件夹中;2.如果用的是Pycharm,再复制一份到..\python\site-packages\selenium\webdriver\chrome文件中。这个地址可以将鼠标放在Pycharm里面安装库的地方的相应库上就能看到。
✨二、selenium模块
之前,我们爬虫是模拟浏览器,但始终不是用的浏览器,但今天我们要说的是另一种爬虫方式,这次不是模拟浏览器,而是用程序去控制浏览器进行一些列操作,也就是selenium。selenium是python的一个第三方库,对外提供的接口可以操控浏览器,比如说输入、点击,跳转,下拉等动作。
在使用selenium模块之前要做两件事,一是安装selenium模块,可以用终端用pip,也可以在pycharm里的setting安装;二是我们需要下载一款浏览器驱动程序,下载的驱动程序要和浏览器的版本一致。
🌟代码实现
✨打开网页
我们打开在线驾驶员考试科目一考试的网址。代码如下:
driver = webdriver.Chrome()
driver.get('https://www.jsyks.com/kmy-mnks')
运行效果如下:
✨分析网页
我们发现每道题目后面都有查看本题分析,点击进去之后,我们就可以看到这题答案,通过对比 分析发现,答案网址有一定的规律,只是后缀不一样,我们称之为该题的编号或者是答案id。后来我们又发现考试页面就有我们所需要的答案id。
接下来,我们开始提取答案id。代码如下:
# 获取答案id
lis = driver.find_elements(By.CSS_SELECTOR, 'div.Exam ul.Content li')
然后,我们用for循环遍历,获取li标签的c属性 get_attribute方法。
for li in lis:
answer_id = li.get_attribute('c')
接下来,我们开始拼接答案的网址。
answer_url = f'https://tiba.jsyks.com/Post/{answer_id}.htm'
✨解析网页
我们获得网址之后,发起请求,获取数据,解析数据,获得我们想要的数据,使用正则表达式去匹配答案的内容。
html_data = requests.get(answer_url).text
answer = re.findall('<br/>答案:<u>(.*?)</u></h1><p>', html_data)[0]
我们请求之后,发现答案和我们题目的选项有细微的差别,对和正确,错和错误,我们是只是什么意思,但是机器不知道什么意思,所以需要我们转换数据。
if answer == '错':
answer = '错误'
elif answer == '对':
answer = '正确'
✨模拟做题
做完这些,就需要将选项和答案进行比较,首先是选项匹配:
bs = li.find_elements(By.CSS_SELECTOR, 'b')
答案和选项比较:
for b in bs:
choose = b.text
if len(choose) > 2:
choose = choose[0]
if answer == choose:
b.click()
到这里我们所有的题目就做完了,接下来是交卷。
driver.find_element(By.CSS_SELECTOR, '.btnJJ').click()
运行完代码,我们会发现我们获得了满分。
玩归玩,闹归闹,还是要好好做题。
全部代码如下:
import re
import requests
from selenium import webdriver
import time
from selenium.webdriver.common.by import By
driver = webdriver.Chrome()
driver.maximize_window()
driver.get('https://www.jsyks.com/kmy-mnks')
# time.sleep(1)
# 获取答案id
lis = driver.find_elements(By.CSS_SELECTOR, 'div.Exam ul.Content li')
# print(lis)
for li in lis:
# 获取li标签c属性
answer_id = li.get_attribute('c')
# print(answer_id)
answer_url = f'https://tiba.jsyks.com/Post/{answer_id}.htm'
# print(answer_url)
html_data = requests.get(answer_url).text
# print(html_data)
answer = re.findall('<br/>答案:<u>(.*?)</u></h1><p>', html_data)[0]
if answer == '错':
answer = '错误'
elif answer == '对':
answer = '正确'
# print(answer)
# 答案和选项内容比较
# 获取选项
bs = li.find_elements(By.CSS_SELECTOR, 'b')
# 把b标签提取出来了
for b in bs:
choose = b.text
if len(choose) > 2:
# 提取第一个元素
choose = choose[0]
if answer == choose:
b.click()
# print('选项:', choose)
# print('答案:', answer)
time.sleep(2)
driver.find_element(By.CSS_SELECTOR, '.btnJJ').click()
🌟总结
我们前面和大家讲解了三个实战,后面,我们将会具体的分析selenium的用法,以及在实战中常用的函数介绍。
版权归原作者 爱吃饼干的小白鼠 所有, 如有侵权,请联系我们删除。