0


抖音用户主页视频数据爬虫详解(点赞,收藏,分享等)

一.

首先进行抓包分析,,,随便找个主页,f12,关键词搜索,发现这个包是以post开头

二.查看请求参数:

我们复制curl在spiderbox里面快速形成请求

对headers,params进行尝试删减,最后发现只需要这些参数,其中只有sec_user_id是加密的

修改count变为100发现他发的包并没有100个,原因在于

post?device。。。的包中有个max_cursor参数,请求载荷中也有一个这样的参数,每次请求的数据中max_cursor是下一个请求的载荷,,,同时has_more为1时候代表还能请求,0为不能请求,我们做如下判断

对于sec_user_id这个参数是作者本身的表示,在url一栏中体现

我们通过自动化drissionpage获取,通过re进行匹配,最终得到最后的载荷

最后进行抓包,发现

点赞,收藏等都在这里,进行提取,最后用pandas转化为execl

最后发现cookie很容易过期,批量爬取有点困难,,,,我们采用drissoinpage进行自动化获取

完美解决。

完整代码在:

知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具知识星球是创作者连接铁杆粉丝,实现知识变现的工具。任何从事创作或艺术的人,例如艺术家、工匠、教师、学术研究、科普等,只要能获得一千位铁杆粉丝,就足够生计无忧,自由创作。社群管理、内容沉淀、链接粉丝等就在知识星球。https://articles.zsxq.com/id_jij4guge1t1x.html

api解释:

请你第一次运行先按0,进行登录(或者触发反爬的时候),登录完成之后,按1进行爬取,

choose为你要爬取的博主,为方便爬取,请你每次爬2个。


本文转载自: https://blog.csdn.net/yanminghe66666/article/details/141195300
版权归原作者 罔闻_spider 所有, 如有侵权,请联系我们删除。

“抖音用户主页视频数据爬虫详解(点赞,收藏,分享等)”的评论:

还没有评论