Python 爬虫—scrapy

scrapy用于从网站中提取所需数据的开源协作框架。以一种快速、简单但可扩展的方式。

该爬虫框架适合于那种静态页面， js 加载的话，如果你无法模拟它的 API 请求，可能就需要使用 selenium 这种使用无头浏览器的方式来完成你的需求了

入门

import scrapy

classBlogSpider(scrapy.Spider):
    name ='blogspider'
    start_urls =['https://www.zyte.com/blog/']defparse(self, response):for title in response.css('.oxy-post-title'):# 返回对象yield{'title': title.css('::text').get()}for next_page in response.css('a.next'):# 返回一个连接，爬虫框架会继续请求这个连接，得到响应后再回调 parse 方法yield response.follow(next_page, self.parse)

运行

scrapy runspider myspider.py

代码中通过 main 方式运行调试

# _*_ coding: utf-8 _*_import os, sys, pprint
from scrapy.cmdline import execute

defbuild_base_config():
    current_dir_path = os.path.dirname(os.path.abspath(__file__))# sys.path.append(current_dir_name)  # 入口文件 与模块查找路径、import 相对路径导入有影响print('\n当前路径 PATH:', current_dir_path)# pprint.pprint(sys.path)
    filepath, file_name = os.path.split(current_dir_path)
    spiders_name = file_name
    spiders_name ="bestbuy_new_ca"return current_dir_path, spiders_name

defrun_product_review():"""
    运行产品评论
    """
    current_dir_path, spiders_name = build_base_config()# 结果输出到本地 json 文件
    execute(['scrapy','crawl', spiders_name +'-products_review',f'-o{current_dir_path}/temp/product-review.json','-LDEBUG',f'-apath={current_dir_path}/temp/review-links.json','-acollect_exist=1'])if __name__ =='__main__':
    run_product_review()pass

简单说：使用了 scrapy.cmdline 提供的工具，执行的命令和在命令行中的一致，只是这种方式可以在 idea 工具中进行 debug 调试

入门和实际开发的不同之处：

开发上： a.入门：例子相对简单，工程结构也不怎么注重 b.生产：相对复杂，在核心开发上差不多，也是如何去解析 html 结构，工程结构上为了调度和复用，可能会更复杂一点
调度平台： a.有使用一些开源的调度平台，因为是通用 b.还有的可能会再开源的调度平台上，再包装一层自己的调度平台，仅用来展示（符合产品经理的设计）

官方对于动态内容的引导

https://docs.scrapy.org/en/latest/topics/dynamic-content.html

个人感觉这里提供的知识点还是非常具有参考价值的，简单总结：

使用 scrapy shell 工具定位数据源

$ scrapy shell "quotes.toscrape.com/scroll"
(...)
>>> view(response)

使用 scrapy fetch 工具获取响应到文件，这类似与查看网页源代码

scrapy fetch --nolog https://example.com > response.html

复制请求：在浏览器中可以将请求复制为 curl 格式，然后可以使用 form_curl() 来使用

from scrapy import Request

request = Request.from_curl(
    "curl 'https://quotes.toscrape.com/api/quotes?page=1' -H 'User-Agent: Mozil"
    "la/5.0 (X11; Linux x86_64; rv:67.0) Gecko/20100101 Firefox/67.0' -H 'Acce"
    "pt: */*' -H 'Accept-Language: ca,en-US;q=0.7,en;q=0.3' --compressed -H 'X"
    "-Requested-With: XMLHttpRequest' -H 'Proxy-Authorization: Basic QFRLLTAzM"
    "zEwZTAxLTk5MWUtNDFiNC1iZWRmLTJjNGI4M2ZiNDBmNDpAVEstMDMzMTBlMDEtOTkxZS00MW"
    "I0LWJlZGYtMmM0YjgzZmI0MGY0' -H 'Connection: keep-alive' -H 'Referer: http"
    "://quotes.toscrape.com/scroll' -H 'Cache-Control: max-age=0'")

解析 JavaScript 代码：html 中有些网站会出现 <script>中间是大段的 json 数据有可能是变量，也有可能是初始化数据之类的</script>，就可以使用

比如是
var data = {"field": "value"};

可以使用如下的方式匹配
pattern = r'\bvar\s+data\s*=\s*(\{.*?\})\s*;\s*\n'
json_data = response.css('script::text').re_first(pattern)
json.loads(json_data)
{'field': 'value'}

标签： python 爬虫 scrapy

本文转载自: https://blog.csdn.net/a1137588003/article/details/132649976
版权归原作者程皮所有，如有侵权，请联系我们删除。

Python 爬虫—scrapy

入门

官方对于动态内容的引导

发表评论

“Python 爬虫—scrapy”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航