【GitHub精选项目】微博数据采集：weibo-crawler使用指南

前言

本文为大家带来的是
dataabc
的
weibo-crawler
开源项目，这是一个高效的下载微博数据的开源项目。它可以轻松的帮助用户获取微博数据从而进行分析。

在众多社交媒体平台中，微博以其海量的用户和实时的信息流成为了研究的热点。而

weibo-crawler

帮可以助研究人员、数据分析师甚至是好奇的个人用户，高效地从微博抓取数据。

本文介绍的不够详尽！仅展示该项目的一小部分！读者朋友们可以前往项目主页进行全面的学习！

项目地址：https://github.com/dataabc/weibo-crawler

项目概览

weibo-crawler 是一个开源的微博爬虫项目，能够自动化地抓取微博用户的帖子、评论、点赞数和转发数等信息。该项目使用

Python

开发，简化了数据收集的过程，支持将数据保存为CSV和JSON等格式，方便后续的数据分析工作。

在这里插入图片描述

它采集的数据也是很全面的！

CSV文件

在这里插入图片描述

下载图片

在这里插入图片描述

下载视频

在这里插入图片描述

克隆项目

git clone

最简单的，在命令行工具输入以下命令即可，如下图所示：

git clone https://github.com/dataabc/weibo-crawler.git

在这里插入图片描述

Download ZIP

如果没有安装Git，那么使用

Download ZIP

也是个不错的选择。

在这里插入图片描述

运行程序

本项目是由

Python

编程语言所编写，默认读者朋友们已经安装好了。

配置环境

step 1 安装依赖

去到项目目录下，安装所需要的库。在命令行执行以下命令即可。

pip install-r requirement.txt

step 2 定义参数

安装好项目所需要的依赖之后，可以打开

config.json

进行程序运行之间必要的配置

以下是完整的参数

{"user_id_list":["1669879400"],"only_crawl_original":1,"remove_html_tag":1,"since_date":"2018-01-01","write_mode":["csv"],"original_pic_download":1,"retweet_pic_download":0,"original_video_download":1,"retweet_video_download":0,"download_comment":1,"comment_max_download_count":1000,"download_repost":1,"repost_max_download_count":1000,"user_id_as_folder_name":0,"cookie":"your cookie","mysql_config":{"host":"localhost","port":3306,"user":"root","password":"123456","charset":"utf8mb4"},"mongodb_URI":"mongodb://[username:password@]host[:port][/[defaultauthdb][?options]]"}

具体的配置参数需要去看官方文档的介绍，我们这里试运行只需要关注

user_id_list

这个参数即可。

设置user_id_list

具体如何获取
user_id
见如何获取user_id。

user_id_list

是要爬取的微博用户的id列表，可以直接在配置中指定，也可以将其设置为一个txt文件的路径。

直接指定：将用户id以列表形式列出，如：（这这里我们选择了第一种方式）

"user_id_list":["1223178222","1669879400","1729370543"]

使用txt文件：创建一个txt文件，每行包含一个用户id和可选的注释（如用户昵称），id和注释之间以空格分隔，示例如下：

1223178222 胡歌
1669879400 迪丽热巴
1729370543 郭碧婷

然后将文件路径指定给

user_id_list

，例如：

"user_id_list":"user_id_list.txt"

本次试运行的config.json

since_date:10 是取最近10天的内容

{"user_id_list":["1223178222","1669879400","1729370543"],"only_crawl_original":0,"since_date":10,"start_page":1,"write_mode":["csv"],"original_pic_download":1,"retweet_pic_download":0,"original_video_download":0,"retweet_video_download":0,"download_comment":1,"comment_max_download_count":100,"download_repost":1,"repost_max_download_count":100,"user_id_as_folder_name":0,"remove_html_tag":1,"cookie":"your cookie","mysql_config":{"host":"localhost","port":3306,"user":"root","password":"123456","charset":"utf8mb4"},"mongodb_URI":"mongodb://[username:password@]host[:port][/[defaultauthdb][?options]]"}

运行方式

命令行

在做完上述的配置操作之后，就可以运行程序了！

运行

weibo.py

，

python weibo.py

运行情况如下图所示，
在这里插入图片描述

docker

此项目也支持
docker
运行，

在项目根路径创建一个名为

docker-compose.yml

的文件，填下以下内容：

path/to 修改成你的项目的根路径！

version:'3'services:weibo-crawler:build:context: .
      dockerfile: Dockerfile
    volumes:- path/to/config.json:/app/config.json
      - path/to/weibo:/app/weibo
    environment:- schedule_interval=1 # 可选：循环间隔（分钟）

然后在命令行输入以下命令启动

docker-compose up -d

结果展示

可以参考前面的项目概览或项目文档，这里不做具体展示！

运行结果如下图所示：

在这里插入图片描述

迪丽热巴

在这里插入图片描述

注意事项

尊重版权：在使用weibo-crawler时应尊重微博用户的版权和隐私，仅用于非商业性研究和学习目的。
遵守法律法规：在使用该工具时，应遵守当地法律法规，不得用于任何违法活动。
配置Cookie：获取并配置自己的微博Cookie到config.json文件中，因为有效的Cookie对于获取部分受限内容是必需的。

总结

通过这个工具，用户可以自动化地抓取微博用户的帖子、评论、点赞数和转发数等信息，支持将数据保存为CSV和JSON等格式，大大简化了数据收集的过程。

本文详细介绍了weibo-crawler的项目概览、克隆项目、运行程序及结果展示等步骤，旨在帮助用户快速上手使用这个工具。在实际使用过程中，用户应当尊重版权、遵守法律法规，并妥善配置个人的微博Cookie，以确保爬虫的正常运行及数据获取的合规性。

美中不足的是，作者并没有在

Releases

发布编译好的拿来即用的版本。但是我相信能去逛

Github

网站的小伙伴，动手能力都不会太差！所以这也是小问题~

后话

本次分享到此结束，
see you~~🎈🎈

标签：爬虫新浪微博 python爬虫

本文转载自: https://blog.csdn.net/weixin_45081575/article/details/138589401
版权归原作者 是小菜欸 所有，如有侵权，请联系我们删除。

【GitHub精选项目】微博数据采集：weibo-crawler使用指南