Selenium获取网页数据环境配置及入门
【内容简介】
1.selenium 介绍
2.selenium +Python环境搭建
3.使用selenium获取网页数据
【知识点讲解】
1.selenium 介绍
selenium 是一个 web 的自动化测试工具。Selenium的核心Selenium Core基于JsUnit,完全由JavaScript编写,因此可以用于任何支持JavaScript的浏览器上。
selenium可以模拟真实浏览器,自动化测试工具,支持多种浏览器,爬虫中主要用来解决JavaScript渲染问题。
官方文档:
Selenium with Python — Selenium Python Bindings 2 documentation
Selenium Documentation — Selenium 4.6 documentation
2.selenium+Python环境搭建
2.1安装selenium库****
和一般第三方库安装方法一样
pip install selenium
2.2安装特定浏览器的webdriver插件
selenium需要通过浏览器的驱动程序(webdriver)来连接和启动一个浏览器。selenium支持谷歌、火狐、edge、欧朋等浏览器,这里以谷歌浏览器(chrome)为例进行讲解。
(1)查看****chrome浏览器版本
点击chrome浏览器右上方的三个小圆点,如图1。
点击“帮助”
点击“关于 Google Chrome”,如图2所示。
图1 点击chrome浏览器右上方的三个小圆点
图2 查看chrome浏览器版本
(2) 下载selenium webdriver插件
登录chrome webdriver网站下载对应版本的 webdriver,如果没有相同的版本号,可以选择近似的版本,如下图所示。
目前可以下载chrome的webdriver的地址:
- http://chromedriver.storage.googleapis.com/index.html
- https://registry.npmmirror.com/binary.html?path=chromedriver/
选择Windows系统,64位也可以选择32位,如下图所示:
2.3 配置环境变量
将chromedriver.exe文件放置到python.exe解释器所在的文件夹内。
(1)找到你的python.exe解释器所在的文件夹
菜单:“文件”-“设置(settings)”,打开设置窗口
(2)复制“chromedriver.exe”到文件夹
2.4测试
新建python文件,输入代码:
from selenium import webdriver
driver = webdriver.Chrome()
显示下面浏览器窗口,模拟浏览器,说明环境配置成功
3.使用Selenium获取网页数据
可以读取所有看得到的所有数据(与requests.get不同)
示例代码****:
from selenium import webdriver
driver = webdriver.Chrome() # 打开chrome浏览器
driver.get('https://www.ptpress.com.cn')
print(driver.page_source)
with open('tmp/source.txt','w',encoding='utf-8') as f:
f.write(driver.page_source)
版权归原作者 rainysun 所有, 如有侵权,请联系我们删除。