爬虫 selenium
前言
selenium可以像人一样打开浏览器,可以从selenium中直接提取网页上的各种信息,有些网页的请求数据是加密的,碰到这种情况我们就可以用selenium模拟浏览器去请求这些数据,跳过解密步骤
若是碰到打开浏览器自动关闭的情况下,是selenium的版本太高导致的,把版本换低一点就可以了
基本代码:
如果页面是ajax的,点击一下时,页面加载有点久会比代码慢,这样就会出现错误,所以得用time.sleep()来让程序等一下页面
from selenium.webdriver import Edge
from selenium.webdriver.common.keys import Keys #导包,对应键盘按键
from selenium.webdriver.common.by import By
import time
web=Edge() #创建浏览器对象
web.get("hettp://baidu.com") #打开一个网站
time.sleep(1)
#找到输入框,输入python,输入回车或者点击搜索按键
web.find_element(by=By.XPATH,value='//*[@id="kw"]').send_keys('看剧',Keys.ENTER)
#切换到新窗口
web.switch_to.window(web.window_handles[-1])
#关掉子窗口
web.close()
#变更selenium窗口视角,回到原来的窗口
web.switch_to.window(web.window_handles[0])
#切换到默认的窗口,一般打开的第一个窗口就是默认的
wen.switch_to.default_content()
爬取一些电影的电影名字与作者
from selenium.webdriver import Edge
from selenium.webdriver.common.keys import Keys #导包,对应键盘按键
from selenium.webdriver.common.by import By
import time
web=Edge()
web.get('https://www.baidu.com/')
# web.find_element_by_xpath('//*[@id="kw"]').send_keys('看剧',Keys.ENTER)
web.find_element(by=By.XPATH,value='//*[@id="kw"]').send_keys('看剧',Keys.ENTER)
time.sleep(3)
#在selenium眼中,新窗口默认时不切换过来的
web.switch_to.window(web.window_handles[-1]) #切换到新窗口
web.find_element(by=By.XPATH,value='//*[@id="4"]/div[1]/div[1]/h3/a').click()
在selenium的版本4.0后就不支持find_element_by_xpath()方法,推荐用find_element()这个方法得导入By包
# li=web.find_element_by_xpath('/html/body/div[1]/div/div[3]/div/div/div[1]/ul[1]/')
web.switch_to.window(web.window_handles[-1]) #切换窗口
lis=web.find_elements(by=By.XPATH,value='/html/body/div[1]/div/div[3]/div/div/div[1]/ul[1]/li')
for li in lis:
tile=li.find_element(by=By.XPATH,value='./div/div[2]/h4/a').get_attribute('title') #提取标题
author=li.find_element(by=By.XPATH,value='./div/div[2]/p').text #提取作者
print(tile,author)
当遇到 iframe 的话,就是比如一个看电影的网页,它有各种播放器,这种就是一个页面里面嵌套一个页面,电影的数据其实是在它嵌套的那个页面里面,所以当我们用selenium去哪数据时,要先定位到iframe的元素,然后切换到iframe的窗口,这样就可以拿到电影数据
web.get('网页url')
iframe=web.find_element(by=By.XPATH,value='xpath路径')
web.switch_to.frame(iframe)
定位下拉列表
from selenium.webdriver import Chrome
from selenium.webdriver.support.select import Select
from selenium.webdriver.common.by import By
import time
web Chrome()
web.get("https://www.endata.com.cn/Boxoffice/B0/Year/index.html")
#定位到下拉列表
sel_el = web.find_element(by=By.XPATH,value='//*[@id="OptionDate"]')
#对元素进行包装,包装成下拉菜单
sel = Select(sel_el)
#让浏览器进行调整选项
for i in range(len(sel.options)): #i就是每一个下拉框选项的索引位置
sel.select_by_index(i) #按照索引进行切换
time.sleep(2) #因为每次切换列表,网页都得刷新,所以让程序等一下
table = web.find_element_by_xpath('//*[@id="TableList"]/table')
print(table.text) #打印所有文本信息
print("===")
#其他却换下拉列表的方法
# select_by_value() 根据里面value的值进行切换
# select_by_visible_text() 根据文本进行切换
# select_by_index() 根据索引进行切换
无头浏览器
就是在selenium驱动浏览器时,可以不让浏览器打开,在后台执行,只需要返回数据给我们进行了
本质上与前面没什么区别,速度也没有快很多
from selenium.webdriver.chrome.options import Options #配置无头浏览器要导入的库
from selenium.webdriver.common.by import By
from selenium.webdriver import Chrome
#配置好参数
opt = Options()
opt.add_argument("--headless")
opt.add_argument("--disbale-gpu")
web=Chrome(options=opt) #把配置参数设置到浏览器里
这样无头浏览器就设置好了
拿到elements页面代码
有些页面源代码是跟elements页面代码是不一样的,页面数据是通过一个请求来加载进来到页面中的,可以认为是一个很标准的ajax请求,elements页面代码是经过数据加载以及js执行之后的结果的html的内容
用selenium就可以很轻松的拿到elements的页面代码
web=Chrome()
web.get("url")
page_source=web.page_source
print(page_source)
版权归原作者 猿~阿峰 所有, 如有侵权,请联系我们删除。