0


selenium绕过浏览器检测

一、情景描述及原因说明

selenium是在自动化爬虫时候的一个强有力的工具,但是通常在自动化的时候它会被检测到是一个爬虫程序,从而对用户操作进行限制。

这里以Edge驱动为例,比如我们在登录的时候:如果是手动打开的网页,可以直接登录成功。但是如果是使用的selenium打开的,他会显示 Microsoft Edge 正由自动测试软件控制, 并且在我们输入用户信息之后显示请求参数异常。

浏览器的不同打开方式的指纹也有所不同,我们可以通过 关键字window.navigator.webdriver来进行查看。

查看方式:

1、打开开发者工具

2、点击控制台

3、直接输入window.navigator.webdriver并回车

返回结果有两种,

    undefined,说明是正常浏览器(chrome显示)

    false            说明是正常浏览器(Edge显示)

    True             说明已经被检测到了是selenium

解决方式一:使用第三方库

undetected_chromedriver是专门针对浏览器被识别作出来的库

优点:根据浏览器版本自动下载驱动

下载:pip install undetected_chromedriver -i https://pypi.tuna.tsinghua.edu.cn/simp le

导入:import undetected_chromedriver as uc

代码展示:

import undetected_chromedriver as uc

driver = uc.Chrome()
driver.get("https://www.zhihu.com/")
time.sleep(10)

效果展示:登录成功

解决方式二 :使用stealth.min.js文件防止selenium被检测

import time
from selenium import webdriver

# 设置浏览选项
option = webdriver.EdgeOptions()
option.add_experimental_option("detach", True)
option.add_experimental_option("excludeSwitches", ["enable-automation"])
option.add_experimental_option("useAutomationExtension",False)
option.add_argument("User-Agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36 Edg/118.0.2088.46")
# 实例化浏览器驱动对象,并将配置浏览器选项
driver = webdriver.Edge(options=option)

# 2. 使用stealth.min.js文件防止selenium被检测
with open("E:\操作小手册\stealth.min.js") as f:
    js = f.read()
value1 = "Page.addScriptToEvaluateOnNewDocument"
value2 = {"source": js}
driver.execute_cdp_cmd(value1, value2)

url = "https://www.zhihu.com/"
driver.get(url=url)
time.sleep(10)

本文转载自: https://blog.csdn.net/ashengz/article/details/133885049
版权归原作者 ashengz 所有, 如有侵权,请联系我们删除。

“selenium绕过浏览器检测”的评论:

还没有评论