0


python爬虫:selenium+browsermobproxy实现浏览器请求抓取(模块安装详解)

前言

    本来很多场景用beautiful和requests就能解决的,但是最近发现了某些网站会使用<link>来链接网页信息,让我没办法通过requests获取页面的具体内容;并且接口也加入了某种token的生成方案,导致我无从下手。

    因此,我使用了selenium+browsermobproxy的方案来解决这个问题(它可以抓取到你通过浏览器F12可以看到的几乎所有的资源)。

    **这里是模块的安装方案,如需源码则关注后篇博客**。

模块安装

    首先,你需要弄到两个东西,本机浏览器对应版本的driver驱动,还有浏览器代理程序

下载

    浏览器代理程序:https://github.com/lightbody/browsermob-proxy/releases 

    chrome浏览器驱动下载地址:Chrome for Testing availability 

    如果你不想使用chrome浏览器,那么你需要自己去找这个驱动下载的链接 

解压和所需的目标

    解压后你将得到这两个东西,这是你后面要使用的关键

python模块安装

     如下安装这两个python模块
pip install browsermob-proxy
pip install selenium
标签: python 爬虫 selenium

本文转载自: https://blog.csdn.net/G541788_/article/details/141502869
版权归原作者 EelBarb 所有, 如有侵权,请联系我们删除。

“python爬虫:selenium+browsermobproxy实现浏览器请求抓取(模块安装详解)”的评论:

还没有评论