前言
本来很多场景用beautiful和requests就能解决的,但是最近发现了某些网站会使用<link>来链接网页信息,让我没办法通过requests获取页面的具体内容;并且接口也加入了某种token的生成方案,导致我无从下手。
因此,我使用了selenium+browsermobproxy的方案来解决这个问题(它可以抓取到你通过浏览器F12可以看到的几乎所有的资源)。
**这里是模块的安装方案,如需源码则关注后篇博客**。
模块安装
首先,你需要弄到两个东西,本机浏览器对应版本的driver驱动,还有浏览器代理程序
下载
浏览器代理程序:https://github.com/lightbody/browsermob-proxy/releases
chrome浏览器驱动下载地址:Chrome for Testing availability
如果你不想使用chrome浏览器,那么你需要自己去找这个驱动下载的链接
解压和所需的目标
解压后你将得到这两个东西,这是你后面要使用的关键
python模块安装
如下安装这两个python模块
pip install browsermob-proxy
pip install selenium
本文转载自: https://blog.csdn.net/G541788_/article/details/141502869
版权归原作者 EelBarb 所有, 如有侵权,请联系我们删除。
版权归原作者 EelBarb 所有, 如有侵权,请联系我们删除。