爬虫日记1.3--Selenium库

Selenium库

Selenium介绍

Selenium：
自动化测试：Selenium 最初是为了自动化 web 应用程序的测试而设计的。它可以在多个浏览器中执行测试脚本，以验证 web 应用的功能。

Web 爬虫：Selenium 可以用于抓取动态内容，因为它能够执行 JavaScript 并与网页进行交互。

自动化任务：例如自动登录、填写表单、点击按钮等操作，Selenium 可以实现自动化处理。

Selenium优点

强大的定位元素功能：支持多种定位方式（如 ID, Name, XPath, CSS Selector 等），可以精确定位网页元素。

处理动态内容：能够处理 JavaScript 渲染的动态页面，这是纯 HTTP 请求库（如 requests）无法做到的。

Selenium缺点

易被检测：由于其模拟浏览器行为，容易被目标网站检测和屏蔽。
资源消耗大：占用较多系统资源（如 CPU 和内存），对大规模爬取任务不太友好。
速度较慢：由于需要启动浏览器并进行页面渲染，速度较使用纯 HTTP 请求的爬虫工具慢。
chromedriver 驱动下载地址：chromedriver
下载后的文件解压后的chromedriver.exe文件复制到，电脑Python安装目录下的Scripts文件夹下即可。
如：D:\python\istall\Scripts

常用函数和方法

浏览器操作：

操作含义webdriver.Chrome()启动 Chrome 浏览器。webdriver.Firefox()启动 Firefox 浏览器。driver.get(url)打开指定 URL 的网页。driver.quit()关闭浏览器并结束会话。

元素定位：

操作含义driver.find_element(By.ID, ‘id’)通过 ID 定位元素。driver.find_element(By.NAME, ‘name’)通过 name 定位元素。driver.find_element(By.XPATH, ‘xpath’)通过 XPath 定位元素。driver.find_element(By.CSS_SELECTOR, ‘css_selector’)通过 CSS 选择器定位元素。

元素交互：

操作含义element.click()点击元素。element.send_keys(‘text’)向元素输入文本。element.clear()清除输入框中的内容。

等待：

操作含义driver.implicitly_wait(time)隐式等待，设置一个全局等待时间。WebDriverWait(driver, time).until(condition)显式等待，直到某个条件成立。比time.sleep()要好很多，避免多余等待和等待时间过少。

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

element = WebDriverWait(driver,10).until(
    EC.presence_of_element_located((By.ID,'element_id')))

浏览器导航：

操作含义driver.back()回到上一页。driver.forward()前进到下一页。driver.refresh()刷新当前页面。

反爬措施

模拟真实用户行为：使用随机的等待时间（如 time.sleep(random.uniform(1, 3))），避免每次请求时间固定。
使用代理：更换 IP 地址，避免同一 IP 短时间内发出大量请求。
修改请求头：如 User-Agent，模拟不同的浏览器和设备。
处理 CAPTCHA：使用第三方服务或人工手动处理验证码。
规避检测：避免使用明显的自动化工具特征（如 webdriver 特征），可以通过修改浏览器指纹等方式来隐藏 Selenium 的使用。
通过以上措施，可以提高爬虫的隐蔽性，降低被目标网站检测和封锁的风险。

标签： selenium

本文转载自: https://blog.csdn.net/qq_53458536/article/details/139146707
版权归原作者 ※星~※ 所有，如有侵权，请联系我们删除。

爬虫日记1.3--Selenium库

Selenium库

Selenium介绍

Selenium优点

Selenium缺点

常用函数和方法

浏览器操作：

元素定位：

元素交互：

等待：

浏览器导航：

反爬措施

发表评论

“爬虫日记1.3--Selenium库”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航