一、情景描述及原因说明
selenium是在自动化爬虫时候的一个强有力的工具,但是通常在自动化的时候它会被检测到是一个爬虫程序,从而对用户操作进行限制。
这里以Edge驱动为例,比如我们在登录的时候:如果是手动打开的网页,可以直接登录成功。但是如果是使用的selenium打开的,他会显示 Microsoft Edge 正由自动测试软件控制, 并且在我们输入用户信息之后显示请求参数异常。
浏览器的不同打开方式的指纹也有所不同,我们可以通过 关键字window.navigator.webdriver来进行查看。
查看方式:
1、打开开发者工具
2、点击控制台
3、直接输入window.navigator.webdriver并回车
返回结果有两种,
undefined,说明是正常浏览器(chrome显示) false 说明是正常浏览器(Edge显示) True 说明已经被检测到了是selenium
解决方式一:使用第三方库
undetected_chromedriver是专门针对浏览器被识别作出来的库
优点:根据浏览器版本自动下载驱动
下载:pip install undetected_chromedriver -i https://pypi.tuna.tsinghua.edu.cn/simp le
导入:import undetected_chromedriver as uc
代码展示:
import undetected_chromedriver as uc
driver = uc.Chrome()
driver.get("https://www.zhihu.com/")
time.sleep(10)
效果展示:登录成功
解决方式二 :使用stealth.min.js文件防止selenium被检测
import time
from selenium import webdriver
# 设置浏览选项
option = webdriver.EdgeOptions()
option.add_experimental_option("detach", True)
option.add_experimental_option("excludeSwitches", ["enable-automation"])
option.add_experimental_option("useAutomationExtension",False)
option.add_argument("User-Agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36 Edg/118.0.2088.46")
# 实例化浏览器驱动对象,并将配置浏览器选项
driver = webdriver.Edge(options=option)
# 2. 使用stealth.min.js文件防止selenium被检测
with open("E:\操作小手册\stealth.min.js") as f:
js = f.read()
value1 = "Page.addScriptToEvaluateOnNewDocument"
value2 = {"source": js}
driver.execute_cdp_cmd(value1, value2)
url = "https://www.zhihu.com/"
driver.get(url=url)
time.sleep(10)
版权归原作者 ashengz 所有, 如有侵权,请联系我们删除。