0


selenium消除启动特征避免被反爬-使用已经打开的浏览器

selenium消除启动特征避免被反爬

启动特征很多,如何消除selenium启动特征呢?这个也是因站而异,如果规避常规的检测,做到以下2点就可以。
在这里插入图片描述

1 是消除window.navigator.webdriver的值;

2 是修改chromedriver.exe的源码,改掉$cdc_xxx的值(用同等数量字符替换即可)。

以往在防止window.navigator.webdriver被识别时的方法是

  from selenium.webdriver import Chrome
  from selenium.webdriver import ChromeOptions
  option = ChromeOptions()
  option.add_experimental_option('excludeSwitches', ['enable-automation'])
  driver = Chrome(options=option)

但在高版本的谷歌浏览器下,通过以上方式已经无效了,最新解决办法详情查看http://www.python66.com/bbs/162.html

另外,还有一种比较强大的配置可以去除webdriver一些特征。

屏蔽webdriver特征

  
    option.add_argument("--disable-blink-features")
    option.add_argument("--disable-blink-features=AutomationControlled")

有些站检测的非常全面,上述做法不能规避检测,怎么办呢?

如果要彻底干净一些,可以借助1段js,这段js可以干掉所有的webdriver特征!用 相关的检测工具站也检测不出来。感兴趣可以联系站长。

即使所有特征被干掉了,依然有办法可以检测(了解如何检测可以加站长一起交流),遇到这样的站就可以考虑放弃selenium了。

如果不想放弃,可以在cmd下指定端口手动启动谷歌浏览器,然后在脚本中接管这个浏览器。这样就和正常启动浏览器无任何区别。详情查看selenium接管本地浏览器

此外,上述webdriver特征的去除也可以考虑用中间人代理的方式解决,本人从网络上收集了一篇比较靠谱的文章。(原理不难,就是给浏览器找个代理,代理获取网页后把对方页面的一些检测代码修改后再返回给浏览器,有点类似于fiddler、charles这些抓包工具)。

3 selenium使用已经打开的浏览器

Selenium 本身不支持直接连接到一个已经打开的浏览器页面。Selenium 启动的浏览器实例是一个全新的会话,它与手动打开的浏览器页面是分开的。但是,有一些变通的方法可以实现类似的效果。

一种方法是通过附加代理连接到已经打开的浏览器。下面是如何实现这一目标的步骤。
配置 Selenium WebDriver 以连接到现有的 Chrome 实例

1) 启动 Chrome 浏览器:以调试模式启动 Chrome 浏览器,使其监听指定端口。

注意
启动 Chrome 浏览器时使用调试端口,找到chrome的安装位置,执行命令:
确保 Chrome 的可执行文件路径正确,并指定一个用户数据目录,以便保留浏览器状态。

参数说明:
–remote-debugging-port=9222:指定 Chrome 浏览器的远程调试端口。
–user-data-dir=“C:\path\to\your\chrome\profile”:指定 Chrome 的用户数据目录。

chrome.exe --remote-debugging-port=9222 --user-data-dir="C:\path\to\your\chrome\profile"# --user-data-dir="C:\path\to\your\chrome\profile" 目录需要提前创建好

2) 编写脚本连接到这个已经运行的 Chrome 实例:

参数说明:
通过调试地址 127.0.0.1:9222 连接到已经运行的 Chrome 实例。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By

# 配置 ChromeDriver 的选项以连接到已经运行的 Chrome 实例
chrome_options = Options()
chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222")# 获取当前脚本的目录import os
current_dir = os.path.dirname(os.path.abspath(__file__))
chrome_driver_path = os.path.join(current_dir, 'chromedriver')# 设置 ChromeDriver 的服务service= Service(chrome_driver_path)# 启动 WebDriver 并连接到现有的 Chrome 实例
driver = webdriver.Chrome(service=service, options=chrome_options)# 现在你可以使用 Selenium 控制已经打开的 Chrome 实例
driver.get("https://www.baidu.com")# 打印网页标题
print(driver.title)# 关闭浏览器
driver.quit()

通过这种方式,你可以让 Selenium 控制一个已经打开的 Chrome 浏览器实例,从而在现有会话中执行自动化任务。


本文转载自: https://blog.csdn.net/weixin_44549063/article/details/141637219
版权归原作者 newxtc 所有, 如有侵权,请联系我们删除。

“selenium消除启动特征避免被反爬-使用已经打开的浏览器”的评论:

还没有评论