版本前瞻:
为防止因为版本不同导致各位遇到奇奇怪怪的错误,特将版本列此,以供参考
Python=3.9 seleniu=4.9.1
使用selenium爬虫的优点
- 模拟真实用户操作:Selenium 可以模拟用户在浏览器中的各种操作,如点击、输入、滚动等。这使得它能够获取那些通过 JavaScript 动态加载的内容,对于现代网页中大量使用 AJAX 技术加载数据的情况非常有效。例如,当你访问一个电商网站,商品的详细信息可能是在用户滚动页面或者点击某个按钮后通过 AJAX 请求加载的,Selenium 可以像真实用户一样触发这些操作,从而获取完整的数据。
- 支持多种浏览器:Selenium 支持多种主流浏览器,如 Chrome、Firefox、Edge 等。这意味着你可以根据不同的需求选择合适的浏览器进行爬虫操作。不同的浏览器在渲染页面和执行 JavaScript 方面可能会有一些细微的差异,Selenium 提供了一种统一的接口来处理这些差异,使得爬虫程序更加灵活和稳定。例如,某些网站可能在特定的浏览器上有更好的兼容性,你可以选择该浏览器来进行爬取,以确保获取到准确的数据。
- 处理复杂的交互场景:对于一些需要登录、填写表单、处理验证码等复杂交互场景,Selenium 能够很好地应对。它可以自动填写表单字段、点击登录按钮,并处理可能出现的验证码挑战。比如,在爬取一些需要登录才能访问的网站时,Selenium 可以模拟用户的登录过程,保存登录状态,以便后续的页面访问和数据采集。此外,对于一些有验证码保护的网站,虽然 Selenium 不能直接破解验证码,但可以通过一些方法,如手动输入验证码一次后保存登录状态,或者使用第三方验证码识别服务来处理验证码
- 可视化调试方便:在开发爬虫过程中,可以通过浏览器的可视化界面进行调试。你可以直接观察到 Selenium 操作的过程,查看页面的加载情况和元素的变化,从而更容易发现和解决问题。例如,如果某个元素无法被正确定位,你可以在浏览器中检查该元素的属性和位置,调整定位策略。这种可视化调试方式大大提高了开发效率,减少了调试的难度。
selenium环境配置及注意事项
安装Miniconda3并创建虚拟环境
为什么要使用miniconda:可以轻松创建多个独立的 Python 环境,每个环境都可以根据特定项目的需求进行定制。比如,一个环境用于数据分析项目,安装特定的数据分析库和工具;另一个环境用于机器学习项目,配置相应的深度学习框架。这样可以有效地避免不同项目之间的软件包冲突导致的错误,确保每个项目都能在稳定的环境中运行
推荐使用清华镜像源安装:
清华镜像源Miniconda3
1.根据不同的系统选择安装版本
3.根据需求选择为安装至当前用户个人目录或者为所有用户安装
4.选择安装路径
5.默认选择前两个选项:创建快捷方式并添加其环境变量
安装完成后 打开win+r 输入cmd 打开命令提示符 输入conda -V 检查是否安装成功
创建虚拟环境:
- conda create -n name python=3.9 (name指虚拟环境名称)
- conda env list 检查环境是否安装成功
- conda activate name****激活环境
将新创建的虚拟环境添加到Pycharm解释器中
1.选择添加新的解释器
2.选择已经创建好的环境
selenium及浏览器驱动安装
1.在当前终端安装selenium
pip install selenium==4.9.1 -i https://pypi.tuna.tsinghua.edu.cn/simple
2.浏览器驱动安装
谷歌驱动下载地址:Chrome for Testing availability
火狐驱动下载地址:https://github.com/mozilla/geckodriver/releases
驱动下载完成后将文件移动到系统环境变量中:
MacOS
:将文件移动到/usr/local/bin
目录Windows
:将文件移动到miniconda3
安装目录
编写以下代码,验证是否能正常运行
from selenium import webdriver
# 获取浏览器驱动对象
browser = webdriver.Chrome()
#加载指定的页面
browser.get('http://www.baidu.com')
版权归原作者 小白要努力变强. 所有, 如有侵权,请联系我们删除。