selenium是什么
Selenium 是最广泛使用的开源 Web UI(用户界面)自动化测试套件之一。Selenium 支持的语言包括C#,Java,Perl,PHP,Python 和 Ruby。目前,Selenium Web 驱动程序最受 Python 和 C#欢迎。 Selenium 测试脚本可以使用任何支持的编程语言进行编码,并且可以直接在大多数现代 Web 浏览器中运行。在爬虫领域 selenium 同样是一把利器,能够解决大部分的网页的反爬问题。下面就进入正式的 study 阶段。
selenium安装
pip install selenium
使用selenium打开浏览器
# 声明浏览器对象
# 导入selenium模块
from selenium import webdriver # webdriver 网络驱动
chrome = webdriver.Chrome() # 谷歌浏览器
firefox = webdriver.Firefox() # 火狐浏览器
edge = webdriver.Edge() # Edge浏览器
phantomjs = webdriver.phantomjs() # phantomjs浏览器
safari = webdriver.Safari() # 苹果浏览器
使用webdriver方法声明浏览器对象,会返回一个浏览器对象,后面所有的操作都是在此对象上进行操作的。
需要注意的是,在使用selenium打开浏览器前,需要下载相对应的浏览器驱动才能使用,下载教程网上有很多,这里就不过多介绍了。
使用selenium访问页面
chrome.get(url)
使用get方法向某个url发送get请求。
使用selenium获取网页中的某个节点
在最新版本中,使用selenium获取节点只有两个方法
- find_element()
- find_elements()
需要传入两个参数,第一个参数为使用哪个方法进行查找,第二个参数表示具体的值。
支持使用使用下列方法获取节点:
ID = "id"
XPATH = "xpath"
LINK_TEXT = "link text"
PARTIAL_LINK_TEXT = "partial link text"
NAME = "name"
TAG_NAME = "tag name"
CLASS_NAME = "class name"
CSS_SELECTOR = "css selector"
- by_link_text和by_partial_link_tex的区别:全部文本和包含某个文本
如:
from selenium.webdriver.common.by import By
input = browser.find_element(By.ID, "q")
find_element和find_elements的区别:
- 多了个s就返回列表,没有s就返回匹配到的第一个标签对象
- find_element匹配不到就抛出异常,find_elements匹配不到就返回空列表
使用selenium对某个节点交互
- 清空文字 clear方法
- 输入文字 send_keys方法
- 点击按钮 click方法
获取某个节点的属性
- get_attribute('属性名') - 获取某个属性值
- text- 获取文本值
- location- 获取该节点在页面的相对位置
- tag_name -
获取标签名称
- size- 获取节点的大小,也就是宽和高
- page_source- 获取页面源代码
使用selenium运行js代码
execute_script('js代码')
使用selenium对标签页的操作
- window_handles - 获取全部标签页,为一个列表
- switch_to.window('标签')- 跳转到某个标签。
一般这两个方法是同时使用的,先获取到全部标签页,然后通过索引指定跳转到某个标签页
switch_to切换frame标签
iframe是html中常用的一种技术,也就是一个页面中嵌套了另外一个网页,selenium默认是访问不了frame中的内容的
解决方法:
- switch_to.frame(iframe节点元素)
需要注意的是,使用该方法后跳转到frame标签内容后,是无法获取frame标签外的元素的,需要获取当前标签页的句柄,然后切换到该句柄才可以获取frame标签外的元素
selenium对cookie的处理
- get_cookies() - 获取cookie,返回的是一个列表, 其中包含的就是完整的cookie信息
- delete_cookie("需要删除的名字")- 删除某一条cookie
- delete_all_cookies()- 删除全部cookie
设置元素等待
很多页面都使用
ajax
技术,页面的元素不是同时被加载出来的,为了防止定位这些尚在加载的元素报错,可以设置元素等来增加脚本的稳定性。
webdriver
中的等待分为 显式等待 和 隐式等待。
- 隐式等待 - implicitly_wait('int')
默认时间为0 如果selenium没有在DOM中找到节点,将继续等待,超出设定时间后,则抛出找不到节点的异常,并且隐式等待是全局性的,即运行过程中,如果元素可以定位到,它不会影响代码运行,但如果定位不到,则它会以轮询的方式不断地访问元素直到元素被找到,若超过指定时间,则抛出异常。
- 显式等待 - WebDriverWait(driver, timeout)-
driver
:浏览器驱动-timeout
:超时时间,单位秒
设置一个超时时间,每个一段时间就去检测一次该元素是否存在,如果存在则执行后续内容,如果超过最大时间(超时时间)则抛出超时异常
引入WebDriverWait对象,指定最长等待时间,然后调用它的until方法,传入要等待的条件expected_conditions,如:
driver = webdriver.Chrome()
driver.get("https://www.taobao.com/")
wait = WebDriverWait(driver, 10)
input1 = wait.until(EC.presence_of_element_located((By.ID, "q")))
使用selenium前进或后退
- back() - 后退
- forward() - 前进
selenium相关设置
# 实例化配置对象
options = webdriver.ChromeOptions() # 创建一个配置对象
options.add_argument('--headless') # 开启无界面模式
options.add_argument("--disable-gpu") # 禁用gpu
options.add_argument("--proxy-server=http://202.20.16.82:9527") # 使用代理ip
options.add_argument("--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36")# 设置useragent
# 添加配置对象
driver = webdriver.Chrome(chrome_options=options)
使用selenium关闭浏览器
- close() - 关闭当前标签页
- quit() - 关闭浏览器
有关selenium更多详细操作看下面链接
selenium用法详解【从入门到实战】【Python爬虫】【4万字】_Dream丶Killer的博客-CSDN博客_seleniumhttps://blog.csdn.net/qq_43965708/article/details/120658713?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522165905672916781818722727%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=165905672916781818722727&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-1-120658713-null-null.142^v35^experiment_28w_v1&utm_term=selenium&spm=1018.2226.3001.4187
版权归原作者 HHYZBC 所有, 如有侵权,请联系我们删除。