WebScraper网页数据爬取可视化工具使用（无需编码）

前言

Web Scraper 是一个浏览器扩展，可以实现无需编码即可爬取网页上的数据。只需按照规则进行配置，即可实现一键爬取导出数据。

安装

进入Google应用商店安装此插件，安装步骤如下：

进入Google应用商店需要外网VPN才能访问，如果你不能进入外网。可以直接访问此链接下载：

链接:https://pan.baidu.com/s/16AZRpKSrtHu_b2OjlYhnGA 提取码:rtk7

安装后，打开 F12开发者工具会多出一个名 Web Scraper 的面板，接下来以此作为开始。

快速上手

写个例子：提取百度首页底部几个导航按钮的文字，了解下 Web Scraper 是如何工作。

创建任务

创建任务，即创建 SiteMap(这词不常用，还是用我们熟悉的词吧，意思大致一样就行)。打开百度首页，再打开开发者面板如下操作，其中URL可以使用特殊语法，这个后面再谈。

选择内容

开始抓取

浏览数据

抓取完肯定要确认数据是否正确，格式不正确需要重新调整选择器，浏览数据的步骤如下：

保存数据

确认无误后，就可以进行保存(如下)。目前只能导出 excel 或 csv 格式，json 需要充值(会员)，不过也不是啥大问题，随便找个在线网站转一下就行。

浏览数据

抓取完肯定要确认数据是否正确，格式不正确需要重新调整选择器，浏览数据的步骤如下：

保存数据

确认无误后，就可以进行保存(如下)。目前只能导出 excel 或 csv 格式，json 需要充值(会员)，不过也不是啥大问题，随便找个在线网站转一下就行。

小结

图片选择器

抓取的URL支持特殊语法，如果页面分页体现在URL上的话还是非常有用的。如下：

表格选择器

提取表格数据，以 IANA的域名列表为例，如下：

链接选择器

提取链接名字和地址，以百度首页为例，如下：

百度首页为例，如下：

属性选择器

提取属性值，以百度首页为例，如下：

图片选择器

提取图片地址，以百度首页为例，如下：

元素选择器

提取表格数据，以 IANA的域名列表为例，如下：

元素和子选择器创建好就可以了，以下是预览到的数据：

链接选择器

提取链接名字和地址，以百度首页为例，如下：

元素点击选择器

分组选择器

分页选择器

分页查询数据，支持多种类型，比元素滚动选择器、元素点击选择器更强大。值得注意的是，子选择器需放在分页选择器内部。以博客园WEB分页为例，模拟上面元素点击选择器的效果，如下：

百度首页为例，如下：

站点地图选择器

这几个比较简单，输入 sitemap.xml 的地址即可，如下：

tips

提取元素，实际是个分组功能。例如，有个列表，每个子项都有名字、链接地址等属性，元素就是包裹这些属性的盒子，可以理解 JS 中的对象。

结语

以上本片的所有内容，你可以利用它去爬取你想要的网页数据例如：知乎、boss直聘、豆瓣等等。

标签：爬虫网络爬虫 web

本文转载自: https://blog.csdn.net/lizhongjun1005/article/details/137170852
版权归原作者 仲君Johnny 所有，如有侵权，请联系我们删除。

WebScraper网页数据爬取可视化工具使用（无需编码）

前言

安装

快速上手

创建任务

选择内容

开始抓取

浏览数据

保存数据

浏览数据

保存数据

小结

图片选择器

表格选择器

链接选择器

属性选择器

图片选择器

元素选择器

链接选择器

元素点击选择器

分组选择器

分页选择器

站点地图选择器

tips

结语

发表评论

“WebScraper网页数据爬取可视化工具使用（无需编码）”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航