0


Selenium获取网页数据(1)——环境配置及入门

Selenium获取网页数据环境配置及入门

【内容简介】

1.selenium 介绍

2.selenium +Python环境搭建

3.使用selenium获取网页数据

【知识点讲解】

1.selenium 介绍

selenium 是一个 web 的自动化测试工具。Selenium的核心Selenium Core基于JsUnit,完全由JavaScript编写,因此可以用于任何支持JavaScript的浏览器上。

selenium可以模拟真实浏览器,自动化测试工具,支持多种浏览器,爬虫中主要用来解决JavaScript渲染问题。

官方文档:

Selenium with Python — Selenium Python Bindings 2 documentation

Selenium Documentation — Selenium 4.6 documentation

2.selenium+Python环境搭建

2.1安装selenium库****

和一般第三方库安装方法一样

pip install selenium

2.2安装特定浏览器的webdriver插件

selenium需要通过浏览器的驱动程序(webdriver)来连接和启动一个浏览器。selenium支持谷歌、火狐、edge、欧朋等浏览器,这里以谷歌浏览器(chrome)为例进行讲解。

(1)查看****chrome浏览器版本

点击chrome浏览器右上方的三个小圆点,如图1。

点击“帮助”

点击“关于 Google Chrome”,如图2所示。

图1 点击chrome浏览器右上方的三个小圆点

图2 查看chrome浏览器版本

(2) 下载selenium webdriver插件

登录chrome webdriver网站下载对应版本的 webdriver,如果没有相同的版本号,可以选择近似的版本,如下图所示。

目前可以下载chrome的webdriver的地址:

选择Windows系统,64位也可以选择32位,如下图所示:

2.3 配置环境变量

将chromedriver.exe文件放置到python.exe解释器所在的文件夹内。

(1)找到你的python.exe解释器所在的文件夹

菜单:“文件”-“设置(settings)”,打开设置窗口

(2)复制“chromedriver.exe”到文件夹

2.4测试

新建python文件,输入代码:

from selenium import webdriver

driver = webdriver.Chrome()

显示下面浏览器窗口,模拟浏览器,说明环境配置成功

3.使用Selenium获取网页数据

可以读取所有看得到的所有数据(与requests.get不同)

示例代码****:

from selenium import webdriver

driver = webdriver.Chrome() # 打开chrome浏览器

driver.get('https://www.ptpress.com.cn')

print(driver.page_source)

with open('tmp/source.txt','w',encoding='utf-8') as f:

f.write(driver.page_source)

标签: selenium python chrome

本文转载自: https://blog.csdn.net/rainysun/article/details/127853243
版权归原作者 rainysun 所有, 如有侵权,请联系我们删除。

“Selenium获取网页数据(1)——环境配置及入门”的评论:

还没有评论