0


python爬虫----selenium特征去除

初始写法

from selenium import webdriver
from bs4 import BeautifulSoup
import csv
import time

driver = webdriver.Chrome()
url ='https://www.aqistudy.cn/historydata/monthdata.php?city=%E5%8C%97%E4%BA%AC'
driver.get(url)# 发现没有数据,因为 默认情况下 代码控制的浏览器 有 很多特征 被检测到了

如何去除这些特征

from selenium.webdriver.chrome.options import Options

# 准备配置
chrome_options = Options()# chrome_options.add_argument("--headless") 控制不显示窗口
chrome_options.add_argument('user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36')
 
driver = webdriver.Chrome(options=chrome_options)# 打开文本文件,得提前有withopen('stealth.min.js')as f:
    js = f.read()# 执行 js 文件代码,去除特征
driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument",{"source": js
})

driver.get(url)
driver.page_source

文件下载:https://download.csdn.net/download/Natalie_Lv/86723031

标签: python 爬虫 selenium

本文转载自: https://blog.csdn.net/Natalie_Lv/article/details/127065198
版权归原作者 只是爱了童话 所有, 如有侵权,请联系我们删除。

“python爬虫----selenium特征去除”的评论:

还没有评论