【0基础学爬虫】爬虫基础之自动化工具 Selenium 的使用

目前，很多网站都采用 Ajax 等技术进行动态加载数据，想要采集这类网站的数据，需要通过抓包对网站的数据接口进行分析，去寻找想要采集的数据由哪个接口传输。而且，就算找到了数据接口，这些接口可能也是被加密过的，想要通过接口获取数据，需要对加密参数进行逆向分析，这个过程对于初学者来说非常复杂。

为了解决这些问题，能够更加简单的进行爬取数据，我们可以使用到一些自动化工具，如 Selenium、playwright、pyppeteer 等，这些工具可以模拟浏览器运行，直接获取到数据加载完成后的网页源码，这样我们就可以省去复杂的抓包、逆向流程，直接拿到数据。

Selenium 的使用#

介绍#

Selenium 是一个流行的自动化测试框架，可用于测试 Web 应用程序的用户界面。它支持多种编程语言，如Java、Python、Ruby等，并提供了一系列 API，可以直接操作浏览器进行测试。

安装#

使用 selenium 首先需要下载浏览器驱动文件，这里以谷歌浏览器为例。在驱动下载页面找到与自己浏览器版本最为接近的文件，如我的谷歌浏览器版本为

112.0.5615.86

，最接近的文件为

112.0.5615.49

，选择此文件，下载对应系统版本的压缩包，将压缩包中的chromedriver.exe程序放到python目录中。因为正常情况下Python在安装时就会被添加到系统环境变量之中，将chromedriver.exe放到Python目录下它就可以在任意位置被执行。

添加好驱动文件后需要安装 Python 的第三方库 selenium。

pip install selenium

使用#

Selenium 支持多种浏览器，如谷歌、火狐、Edge、Safari等，这里我们以谷歌浏览器为例。

from selenium import webdriver

# 初始化浏览器对象
driver = webdriver.Chrome()
# 驱动浏览器打开目标网址
driver.get('https://www.baidu.com/')
# 打印当前页面的源代码
print(driver.page_source)
# 关闭浏览器
driver.quit()

运行代码后我们会发现自动打开了一个浏览器，访问了目标网址，在控制台输出了页面的源代码，然后自动关闭。

Selenium 提供了一系列实用的 Api，通过它我们可以实现更多操作。

标签：爬虫自动化 selenium

本文转载自: https://blog.csdn.net/Gefangenes/article/details/137776735
版权归原作者 野生的狒狒 所有，如有侵权，请联系我们删除。

【0基础学爬虫】爬虫基础之自动化工具 Selenium 的使用

Selenium 的使用#

介绍#

安装#

使用#

发表评论

“【0基础学爬虫】爬虫基础之自动化工具 Selenium 的使用”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航