大规模 Web 数据采集的终极开源方案 - PulsarR

简介

PulsarR （国内镜像）是大规模采集 Web 数据的终极开源方案，可满足几乎所有规模和性质的网络数据采集需要。

大规模提取 Web 数据非常困难。网站经常变化并且变得越来越复杂，这意味着收集的网络数据通常不准确或不完整，PulsarR 开发了一系列尖端技术来解决这些问题。

我们发布了一些最大型电商网站的全站数据采集的完整解决方案，这些解决方案满足最高标准的性能、质量和成本要求，他们将永久免费并开放源代码，譬如：

Exotic Amazon（国内镜像）- 顶尖电商网站全站数据采集真实项目
Exotic Walmart（国内镜像）- 顶尖电商网站数据采集示例
Exotic Dianping（国内镜像）- 最困难的数据采集示例

PulsarR 支持高质量的大规模数据采集和处理。PulsarR 开发了一系列基础设施和前沿技术，来保证即使是大规模数据采集场景，也能达到最高标准的性能、质量和总体拥有成本。

PulsarR 支持网络即数据库范式。PulsarR 像对待内部数据库一样对待外部网络，如果需要的数据不在本地存储中，或者现存版本不满足分析需要，则系统会从互联网上采集该数据的最新版本。我们还开发了 X-SQL 来直接查询互联网，并将网页转换成表格和图表。

PulsarR 支持将浏览器渲染作为数据采集的首要方法。将浏览器渲染作为数据采集的首要方法，我们在数据点规模、数据质量、人力成本和硬件成本之间实现了最佳平衡，并实现了最低的总体拥有成本。通过优化，如屏蔽不相关的资源文件，浏览器渲染的性能甚至可以与传统的单一资源采集方法相媲美。

PulsarR 支持 RPA 采集。PulsarR 包含一个 RPA 子系统，来实现网页交互：滚动、打字、屏幕捕获、鼠标拖放、点击等。该子系统和大家所熟知的 selenium, playwright, puppeteer 是类似的，但对所有行为进行了优化，譬如更真实的模拟操作，更好的执行性能，更好的并行性，更好的容错处理，等等。

PulsarR 支持退化的单一资源采集。PulsarR 的默认采集方式是通过浏览器渲染来采集完整的网页数据，如果您需要的数据可以通过单一接口获取，譬如可以通过某个 ajax 接口返回，也可以调用 PulsarR 的资源采集方法进行高速采集。

PulsarR 计划支持最前沿的信息提取技术。我们计划发布一个先进的人工智能，以显著的精度自动提取所有网页（譬如商品详情页）中的每一个字段，目前我们提供了一个预览版本，国内镜像。

主要特性

网络爬虫：各种数据采集模式，包括浏览器渲染、ajax数据采集、普通协议采集等
RPA：机器人流程自动化、模仿人类行为、采集单网页应用程序或执行其他有价值的任务
高性能：高度优化，单机并行渲染数百页而不被屏蔽
低成本：每天抓取 100,000 个浏览器渲染的电子商务网页，或 n * 10,000,000 个数据点，仅需要 8 核 CPU/32G 内存
数据质量保证：智能重试、精准调度、Web 数据生命周期管理
简洁的 API：一行代码抓取，或者一条 SQL 将整个网站栏目变成表格
X-SQL：扩展 SQL 来管理 Web 数据：网络爬取、数据采集、Web 内容挖掘、Web BI
爬虫隐身：浏览器驱动隐身，IP 轮换，隐私上下文轮换，永远不会被屏蔽
大规模采集：完全分布式，专为大规模数据采集而设计
大数据支持：支持各种后端存储：本地文件/MongoDB/HBase/Gora
日志和指标：密切监控并记录每个事件
[即将发布] Information Extraction：自动学习网页数据模式，以显著的精度自动提取网页中的每一个字段

开始

大多数抓取尝试可以从几乎一行代码开始：

fun main() = PulsarContexts.createSession().scrapeOutPages( "https://www.amazon.com/", "-outLink a[href~=/dp/]", listOf("#title", "#acrCustomerReviewText"))

上面的代码从一组产品页面中抓取由 css 选择器 #title 和 #acrCustomerReviewText 指定的字段。示例代码可以在这里找到：kotlin，java，国内镜像：kotlin，java。

大多数生产环境数据采集项目可以从以下代码片段开始：

fun main() {
    val context = PulsarContexts.create()

    val parseHandler = { _: WebPage, document: Document ->
        // use the document
        // ...
        // and then extract further hyperlinks
        context.submitAll(document.selectHyperlinks("a[href~=/dp/]"))
    }
    val urls = LinkExtractors.fromResource("seeds10.txt")
        .map { ParsableHyperlink("$it -refresh", parseHandler) }
    context.submitAll(urls).await()
}

示例代码可以在这里找到：kotlin，java，国内镜像：kotlin，java。

最复杂的数据采集项目可以使用 RPA 模式：

最复杂的数据采集项目往往需要和网页进行复杂交互，为此我们提供了简洁强大的 API。以下是一个典型的 RPA 代码片段，它是从顶级电子商务网站收集数据所必需的：

val options = session.options(args)
val event = options.event.browseEvent
event.onBrowserLaunched.addLast { page, driver ->
    // warp up the browser to avoid being blocked by the website,
    // or choose the global settings, such as your location.
    warnUpBrowser(page, driver)
}
event.onWillFetch.addLast { page, driver ->
    // have to visit a referrer page before we can visit the desired page
    waitForReferrer(page, driver)
    // websites may prevent us from opening too many pages at a time, so we should open links one by one.
    waitForPreviousPage(page, driver)
}
event.onWillCheckDocumentState.addLast { page, driver ->
    // wait for a special fields to appear on the page
    driver.waitForSelector("body h1[itemprop=name]")
    // close the mask layer, it might be promotions, ads, or something else.
    driver.click(".mask-layer-close-button")
}
// visit the URL and trigger events
session.load(url, options)

示例代码可以在这里找到：kotlin，国内镜像。

核心概念

PulsarR 的核心概念包括以下内容，了解了这些核心概念，您可以使用 PulsarR 解决最高要求的数据采集任务：

网络数据采集（Web Scraping）: 使用机器人从网站中提取内容和数据的过程
自动提取（Auto Extract）: 自动学习数据模式并从网页中提取每个字段，由尖端的人工智能算法驱动
RPA: 机器人流程自动化，这是抓取现代网页的唯一方法
网络即数据库（Network As A Database）: 像访问本地数据库一样访问 Web
X-SQL: 直接使用 SQL 查询 Web
Pulsar Session: 提供了一组简单、强大和灵活的 API 来执行 Web 抓取任务
Web Driver: 定义了一个简洁的界面来访问网页并与之交互，所有行为都经过优化以尽可能接近真实的人
URL: PulsarR 中的 URL 是一个普通的 URL，但是带有描述任务的额外信息。PulsarR 中的每个任务都被定义为某种形式的 URL
Hyperlink: PulsarR 中的超链接是一个普通的超链接，但是带有描述任务的额外信息
Load Options: 加载选项或加载参数影响 Pulsar 如何加载、获取和抓取网页
Event Handlers: 在网页的整个生命周期中捕获和处理事件

点击 Pulsar concepts 查看详情。

使用方法一：通过可执行 jar 体验 PulsarR

我们发布了一个基于 PulsarR 的独立可执行 jar，它包含：

一组顶尖站点的数据采集示例
一个基于自监督机器学习的信息提取小程序，AI 识别详情页所有字段，90% 以上字段精确度 99.9% 以上
一个基于自监督机器学习并输出所有字段采集规则的小程序，可以辅助传统数据采集
一个从命令行直接执行网页数据采集任务的小程序，如同 wget 或者 curl，不需要写代码
一个简洁且强大的 PulsarR 客户端，可以像传统数据库客户端一样，通过编写 SQL 来查询 Web，采集数据

下载 Exotic，或者 Exotic 国内镜像并使用单个命令行探索其能力：

java -jar exotic-standalone.jar

使用方法二：将 PulsarR 用作软件库

利用 PulsarR 强大功能的最简单方法是将其作为库添加到您的项目中。

Maven:

<dependency>
  <groupId>ai.platon.pulsar</groupId>
  <artifactId>pulsar-all</artifactId>
  <version>1.10.2</version>
</dependency>

Gradle:

implementation("ai.platon.pulsar:pulsar-all:1.10.2")

对于国内开发者，我们强烈建议您按照这个（国内镜像）指导来加速构建。

基本用法

Kotlin

// 创建一个 Pulsar 会话
val session = PulsarContexts.createSession()
// 示例程序使用的 url
val url = "https://list.jd.com/list.html?cat=652,12345,12349"
// 加载一个页面，如果该页面为首次加载，或者该页面已过期，则从互联网下载该页面
val page = session.load(url, "-expires 1d")
// 将一个网页内容解析为Jsoup文档
val document = session.parse(page)
// 使用该文档做一些事情
// ...

// 或者，加载并解析
val document2 = session.loadDocument(url, "-expires 1d")
// 使用该文档做一些事情
// ...

// 加载由 -outLink 指示的链出页面
val pages = session.loadOutPages(url, "-expires 1d -itemExpires 7d -outLink a[href~=item]")
// 加载，解析并提取字段
val fields = session.scrape(url, "-expires 1d", "li[data-sku]", listOf(".p-name em", ".p-price"))
// 加载，解析并提取具名字段
val fields2 = session.scrape(url, "-i 1d", "li[data-sku]", mapOf("name" to ".p-name em", "price" to ".p-price"))
// 从由 -outLink 指示的链出页面中加载，解析并提取具名字段
val fields3 = session.scrapeOutPages(url, "-i 10s -ii 10s", "li[data-sku]", mapOf("name" to ".sku-name", "price" to ".p-price"))

示例代码可以在这里找到: kotlin，java，国内镜像：kotlin，java。

Load options

请注意，我们的大多数抓取方法都接受一个称为加载参数或加载选项的参数，以控制如何加载/获取网页。

-expires     // 网页失效时间
-itemExpires // 批采集方法中，项目页的失效时间
-outLink     // 批采集方法中，项目页链接的 CSS 选择器
-refresh     // 强制重新采集网页
-parse       // 激活数据解析流程
-resource    // 以单一资源模式进行采集，不经过浏览器渲染

点击 Load Options （国内镜像）查看所有加载选项。

提取网页数据

PulsarR 使用 jsoup 从 HTML 文档中提取数据。 Jsoup 将 HTML 解析为与现代浏览器相同的 DOM。查看 selector-syntax 以获取所有受支持的 CSS 选择器。

Kotlin

val document = session.loadDocument(url, "-expires 1d")
val price = document.selectFirst('.price').text()

连续采集

在 PulsarR 中抓取大量 url 集合或运行连续采集非常简单。

Kotlin

fun main() {
    val context = PulsarContexts.create()

    val parseHandler = { _: WebPage, document: Document ->
        // 使用该文档
        println(document.title() + "\t|\t" + document.baseUri())
    }
    val urls = LinkExtractors.fromResource("seeds.txt")
        .map { ParsableHyperlink("$it -refresh", parseHandler) }
    context.submitAll(urls)
    // 你可以继续提交上百万采集任务
    context.submitAll(urls)
    // ...
    context.await()
}

Java

public class ContinuousCrawler {

    private static void onParse(WebPage page, Document document) {
        // do something wonderful with the document
        System.out.println(document.title() + "\t|\t" + document.baseUri());
    }

    public static void main(String[] args) {
        PulsarContext context = PulsarContexts.create();

        List<Hyperlink> urls = LinkExtractors.fromResource("seeds.txt")
                .stream()
                .map(seed -> new ParsableHyperlink(seed, ContinuousCrawler::onParse))
                .collect(Collectors.toList());
        context.submitAll(urls);
        // feel free to submit millions of urls here
        context.submitAll(urls);
        // ...
        context.await();
    }
}

示例代码可以在这里找到: kotlin, java, 国内镜像：kotlin, java。

RPA (机器人流程自动化）

随着网站变得越来越复杂，RPA 已成为从某些网站收集数据的唯一途径，例如某些使用自定义字体技术的网站。

PulsarR 包含一个 RPA 子系统，提供了一种在网页生命周期中模仿真人的便捷方式，使用 Web 驱动程序与网页交互：滚动、打字、屏幕捕获、鼠标拖放、点击等。这和大家所熟知的 selenium，playwright，puppeteer 类似，不同的是，PulsarR 的所有行为都针对大规模数据采集进行优化。

以下是一个典型的 RPA 代码片段，它是从顶级电子商务网站收集数据所必需的：

val options = session.options(args)
val event = options.event.browseEvent
event.onBrowserLaunched.addLast { page, driver ->
    // 预热浏览器，以避免被网站阻止，或选择全局设置，例如您的位置
    warnUpBrowser(page, driver)
}
event.onWillFetch.addLast { page, driver ->
    // 必须先访问引荐来源页面，然后才能访问所需页面
    waitForReferrer(page, driver)
    // 网站可能会阻止我们一次打开过多页面，因此我们应该逐一打开链接
    waitForPreviousPage(page, driver)
}
event.onWillCheckDocumentState.addLast { page, driver ->
    // 等待特殊字段出现在页面上
    driver.waitForSelector("body h1[itemprop=name]")
    // 关闭遮罩层，它可能是促销、广告或其他东西
    driver.click(".mask-layer-close-button")
}
// 访问 URL 并触发事件
session.load(url, options)

示例代码可以在这里找到：kotlin，国内镜像：kotlin。

使用 X-SQL 查询 Web

PulsarR 支持网络即数据库范式，开发了 X-SQL 进行数据提取，类型转换和数据清洗，这使得我们可以以访问传统数据库一样的简洁方式来访问互联网。

提取单个页面：

select
      dom_first_text(dom, '#productTitle') as title,
      dom_first_text(dom, '#bylineInfo') as brand,
      dom_first_text(dom, '#price tr td:matches(^Price) ~ td, #corePrice_desktop tr td:matches(^Price) ~ td') as price,
      dom_first_text(dom, '#acrCustomerReviewText') as ratings,
      str_first_float(dom_first_text(dom, '#reviewsMedley .AverageCustomerReviews span:contains(out of)'), 0.0) as score
  from load_and_select('https://www.amazon.com/dp/B09V3KXJPB -i 1s -njr 3', 'body');

执行 X-SQL：

val context = SQLContexts.create()
val rs = context.executeQuery(sql)
println(ResultSetFormatter(rs, withHeader = true))

结果如下:

TITLE                                                   | BRAND                  | PRICE   | RATINGS       | SCORE
HUAWEI P20 Lite (32GB + 4GB RAM) 5.84" FHD+ Display ... | Visit the HUAWEI Store | $1.10.1 | 1,349 ratings | 4.40

示例代码可以在这里找到：kotlin，国内镜像：kotlin。

使用方法三：将 PulsarR 作为 REST 服务运行

当 PulsarR 作为 REST 服务运行时，X-SQL 可用于随时随地抓取网页或直接查询 Web 数据，无需打开 IDE。

从源代码构建

git clone https://github.com/platonai/pulsar.git

cd pulsar && bin/build-run.sh

对于国内开发者，我们强烈建议您按照这个指导来加速构建。

使用 X-SQL 查询 Web

如果未启动，则启动 pulsar 服务器：

bin/pulsar

在另一个终端窗口中抓取网页：

bin/scrape.sh

该 bash 脚本非常简单，只需使用 curl 发送 X-SQL：

curl -X POST --location "http://localhost:8182/api/x/e" -H "Content-Type: text/plain" -d "
  select
      dom_base_uri(dom) as url,
      dom_first_text(dom, '#productTitle') as title,
      str_substring_after(dom_first_href(dom, '#wayfinding-breadcrumbs_container ul li:last-child a'), '&node=') as category,
      dom_first_slim_html(dom, '#bylineInfo') as brand,
      cast(dom_all_slim_htmls(dom, '#imageBlock img') as varchar) as gallery,
      dom_first_slim_html(dom, '#landingImage, #imgTagWrapperId img, #imageBlock img:expr(width > 400)') as img,
      dom_first_text(dom, '#price tr td:contains(List Price) ~ td') as listprice,
      dom_first_text(dom, '#price tr td:matches(^Price) ~ td') as price,
      str_first_float(dom_first_text(dom, '#reviewsMedley .AverageCustomerReviews span:contains(out of)'), 0.0) as score
  from load_and_select('https://www.amazon.com/dp/B09V3KXJPB -i 1d -njr 3', 'body');"

示例代码可以在这里找到:bash,batch,java,kotlin,php.

Json 格式的响应如下：

{
    "uuid": "cc611841-1f2b-4b6b-bcdd-ce822d97a2ad",
    "statusCode": 200,
    "pageStatusCode": 200,
    "pageContentBytes": 1607636,
    "resultSet": [
        {
            "title": "Tara Toys Ariel Necklace Activity Set - Amazon Exclusive (51394)",
            "listprice": "$19.99",
            "price": "$12.99",
            "categories": "Toys & Games|Arts & Crafts|Craft Kits|Jewelry",
            "baseuri": "https://www.amazon.com/dp/B00BTX5926"
        }
    ],
    "pageStatus": "OK",
    "status": "OK"
}

日志和指标

PulsarR 精心设计了日志和指标子系统，以记录系统中发生的每一个事件。

PulsarR 在日志中报告每个页面加载任务执行的状态，因此很容易知道系统中发生了什么，判断系统运行是否健康、回答成功获取多少页面、重试多少页面、使用了多少代理 IP，等等。

只需注意几个符号，您就可以深入了解整个系统的状态：💯 💔 🗙 ⚡💿 🔃🤺。

下面是一组典型的任务日志，查看日志格式了解如何阅读日志，从而一目了然地了解整个系统的状态。

2022-09-24 11:46:26.045  INFO [-worker-14] a.p.p.c.c.L.Task - 3313. 💯 ⚡ U for N got 200 580.92 KiB in 1m14.277s, fc:1 | 75/284/96/277/6554 | 106.32.12.75 | 3xBpaR2 | https://www.walmart.com/ip/Restored-iPhone-7-32GB-Black-T-Mobile-Refurbished/329207863 -expires PT24H -ignoreFailure -itemExpires PT1M -outLinkSelector a[href~=/ip/] -parse -requireSize 300000
2022-09-24 11:46:09.190  INFO [-worker-32] a.p.p.c.c.L.Task - 3738. 💯 💿 U  got 200 452.91 KiB in 55.286s, last fetched 9h32m50s ago, fc:1 | 49/171/82/238/6172 | 121.205.220.179 | https://www.walmart.com/ip/Boost-Mobile-Apple-iPhone-SE-2-Cell-Phone-Black-64GB-Prepaid-Smartphone/490934488 -expires PT24H -ignoreFailure -itemExpires PT1M -outLinkSelector a[href~=/ip/] -parse -requireSize 300000
2022-09-24 11:46:28.567  INFO [-worker-17] a.p.p.c.c.L.Task - 2269. 💯 🔃 U for SC got 200 565.07 KiB <- 543.41 KiB in 1m22.767s, last fetched 16m58s ago, fc:6 | 58/230/98/295/6272 | 27.158.125.76 | 9uwu602 | https://www.walmart.com/ip/Straight-Talk-Apple-iPhone-11-64GB-Purple-Prepaid-Smartphone/356345388?variantFieldId=actual_color -expires PT24H -ignoreFailure -itemExpires PT1M -outLinkSelector a[href~=/ip/] -parse -requireSize 300000
2022-09-24 11:47:18.390  INFO [r-worker-8] a.p.p.c.c.L.Task - 3732. 💔 ⚡ U for N got 1601 0 <- 0 in 32.201s, fc:1/1 Retry(1601) rsp: CRAWL, rrs: EMPTY_0B | 2zYxg52 | https://www.walmart.com/ip/Apple-iPhone-7-256GB-Jet-Black-AT-T-Locked-Smartphone-Grade-B-Used/182353175?variantFieldId=actual_color -expires PT24H -ignoreFailure -itemExpires PT1M -outLinkSelector a[href~=/ip/] -parse -requireSize 300000
2022-09-24 11:47:13.860  INFO [-worker-60] a.p.p.c.c.L.Task - 2828. 🗙 🗙 U for SC got 200 0 <- 348.31 KiB <- 684.75 KiB in 0s, last fetched 18m55s ago, fc:2 | 34/130/52/181/5747 | 60.184.124.232 | 11zTa0r2 | https://www.walmart.com/ip/Walmart-Family-Mobile-Apple-iPhone-11-64GB-Black-Prepaid-Smartphone/209201965?athbdg=L1200 -expires PT24H -ignoreFailure -itemExpires PT1M -outLinkSelector a[href~=/ip/] -parse -requireSize 300000
2022-09-24 11:46:12.167  INFO [-worker-62] a.p.p.c.i.S.Task - 3744. 🤺 Trying 2th 10s later | U  got 1601 0 <- 0 in 1m0.612s, last fetched 10s ago, fc:1/1 Retry(1601) rsp: CRAWL | https://www.walmart.com/ip/iPhone-7-128GB-Silver-Boost-Mobile-Used-Grade-B/662547852

系统要求

Memory 4G+
Maven 3.2+
Java 11 JDK 最新版本
java and jar on the PATH
Google Chrome 90+

PulsarR 在 Ubuntu 18.04、Ubuntu 20.04、Windows 7、Windows 11、WSL 上进行了测试，任何其他满足要求的操作系统也应该可以正常工作。

高级主题

点击链接 advanced topics 查看以下问题的答案：

大规模网络爬虫有什么困难？
如何每天从电子商务网站上抓取一百万个产品页面？
如何在登录后抓取页面？
如何在浏览器上下文中直接下载资源？
如何抓取单页应用程序（SPA）？
资源模式
RPA 模式
如何确保正确提取所有字段？
如何抓取分页链接？
如何抓取新发现的链接？
如何爬取整个网站？
如何模拟人类行为？
如何安排优先任务？
如何在固定时间点开始任务？
如何删除计划任务？
如何知道任务的状态？
如何知道系统中发生了什么？
如何为要抓取的字段自动生成 css 选择器？
如何使用机器学习自动从网站中提取内容并具有商业准确性？
如何抓取 amazon.com 以满足行业需求？

同其他方案的对比

一般来说，“主要特性”部分中提到的特性都得到了 PulsarR 的良好支持，但其他解决方案不支持或者支持不好。

点击链接 solution comparison 查看以下问题的答案：

PulsarR vs selenium/puppeteer/playwright
PulsarR vs nutch
PulsarR vs scrapy+splash

技术细节

点击链接 technical details 查看以下问题的答案：

如何轮换我的 IP 地址？
如何隐藏我的机器人不被检测到？
如何以及为什么要模拟人类行为？
如何在一台机器上渲染尽可能多的页面而不被屏蔽？

标签：开源网络爬虫爬虫

本文转载自: https://blog.csdn.net/weixin_48738961/article/details/127139762
版权归原作者 PlatonAI 所有，如有侵权，请联系我们删除。

大规模 Web 数据采集的终极开源方案 - PulsarR

简介

主要特性

开始

核心概念

使用方法一：通过可执行 jar 体验 PulsarR

使用方法二：将 PulsarR 用作软件库

基本用法

Load options

提取网页数据

连续采集

RPA (机器人流程自动化）

使用 X-SQL 查询 Web

使用方法三：将 PulsarR 作为 REST 服务运行

从源代码构建

使用 X-SQL 查询 Web

日志和指标

系统要求

高级主题

同其他方案的对比

技术细节

发表评论

“大规模 Web 数据采集的终极开源方案 - PulsarR”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航