一.
首先进行抓包分析,,,随便找个主页,f12,关键词搜索,发现这个包是以post开头
二.查看请求参数:
我们复制curl在spiderbox里面快速形成请求
对headers,params进行尝试删减,最后发现只需要这些参数,其中只有sec_user_id是加密的
修改count变为100发现他发的包并没有100个,原因在于
post?device。。。的包中有个max_cursor参数,请求载荷中也有一个这样的参数,每次请求的数据中max_cursor是下一个请求的载荷,,,同时has_more为1时候代表还能请求,0为不能请求,我们做如下判断
对于sec_user_id这个参数是作者本身的表示,在url一栏中体现
我们通过自动化drissionpage获取,通过re进行匹配,最终得到最后的载荷
最后进行抓包,发现
点赞,收藏等都在这里,进行提取,最后用pandas转化为execl
最后发现cookie很容易过期,批量爬取有点困难,,,,我们采用drissoinpage进行自动化获取
完美解决。
完整代码在:
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具知识星球是创作者连接铁杆粉丝,实现知识变现的工具。任何从事创作或艺术的人,例如艺术家、工匠、教师、学术研究、科普等,只要能获得一千位铁杆粉丝,就足够生计无忧,自由创作。社群管理、内容沉淀、链接粉丝等就在知识星球。https://articles.zsxq.com/id_jij4guge1t1x.html
api解释:
请你第一次运行先按0,进行登录(或者触发反爬的时候),登录完成之后,按1进行爬取,
choose为你要爬取的博主,为方便爬取,请你每次爬2个。
版权归原作者 罔闻_spider 所有, 如有侵权,请联系我们删除。