selenium库是一个自动化测试工具,能够驱动浏览器模拟人的操作,如鼠标单击、键盘输入等。
通过selenium库能够比较容易地获取到网页的源代码,还可以进行网络内容的批量自动下载等。
上海证券交易所的公开信息、新浪财经的股票行情实时数据等网页都是动态渲染出来的,而通过
常规爬虫手段获取的则是未经渲染的信息,面对这种没有渲染的网页,在数据挖掘时就需要使用
selenium库,通过模拟人在浏览器中的操作,快速获取渲染后的网页源代码。
一、模拟浏览器chromeDriver的下载与安装
1.安装谷歌浏览器并查看版本号
安装chromedriver之前,得先安装谷歌浏览器,然后查看所安装的谷歌浏览器的版本。
单击浏览器右上角三点,然后点击帮助,点击关于google chrome命令,在关于Chrome对话框
就能看到当前安装的谷歌浏览器的版本号。
2.chromedriver下载
chromedriver版本需要与Chrome版本一致,笔者chrome版本为103.0.0506,只需要找到
chromedriver一样的版本就好。具体操作如下:
chromedriver官方下载地址:https://npm.taobao.org/mirrors/chromedriver/
or
http://chromedriver.storage.googleapis.com/index.html
显示如下图即是安装完成!
二、selenium库的安装
pip install selenium
显示如下图即是安装完成!
版权归原作者 码力十足学量化 所有, 如有侵权,请联系我们删除。