爬虫技术——小白入狱案例

在这里插入图片描述
知孤云出岫

1. 案例概述

百度图片搜索页面可以展示大量的图片，我们可以通过分析其请求规律，编写爬虫从页面中获取图片URL，并将图片批量下载。我们将使用

requests

库获取网页内容，

BeautifulSoup

库解析HTML，

re

库进行正则匹配，同时使用多线程或异步库加速下载过程。

2. 案例需求分析

目标：批量下载百度图片搜索结果中的优质图片
技术栈：Python、requests、BeautifulSoup、正则表达式、线程池
难点： - 爬虫需要模拟浏览器请求，避免被反爬机制检测- 图片下载需高效且保证成功率- 百度图片页面的URL是动态生成的，需要正确分析数据接口

3. 实现步骤

Step 1: 环境准备

pip install requests
pip install beautifulsoup4

Step 2: 分析百度图片URL请求规律

在百度图片页面进行搜索，使用浏览器开发者工具（F12）查看网络请求。可以发现，图片信息是通过特定的JSON接口获取的。通常请求的URL格式如下：

https://image.baidu.com/search/acjson?tn=resultjson_com&logid=XXXXX&ipn=rj&ct=201326592&is=&fp=result&queryWord={keyword}&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word={keyword}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn={page_num}&rn=30

queryWord和word是搜索关键词。
pn表示图片页码。
rn表示每页图片数量。

Step 3: 编写爬虫代码

以下代码示例展示了如何构建一个百度图片爬虫。该爬虫首先发起HTTP请求获取JSON数据，再解析其中的图片URL，然后逐一下载图片到本地。

import os
import re
import requests
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor

# 定义请求头，模拟浏览器行为
headers ={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36"}# 创建文件夹存储图片defcreate_folder(folder_name):ifnot os.path.exists(folder_name):
        os.makedirs(folder_name)# 获取图片URL列表deffetch_image_urls(keyword, page_num):
    url =f"https://image.baidu.com/search/acjson?tn=resultjson_com&logid=XXXXX&ipn=rj&ct=201326592&is=&fp=result&queryWord={keyword}&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word={keyword}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn={page_num*30}&rn=30"
    response = requests.get(url, headers=headers)
    response.encoding ='utf-8'# 使用正则表达式提取所有图片的URL
    img_urls = re.findall(r'"thumbURL":"(http.*?)"', response.text)return img_urls

# 下载图片defdownload_image(img_url, folder_name):try:
        img_data = requests.get(img_url, headers=headers).content
        img_name = os.path.join(folder_name, img_url.split('/')[-1])withopen(img_name,'wb')as img_file:
            img_file.write(img_data)print(f"Downloaded: {img_name}")except Exception as e:print(f"Failed to download {img_url}: {e}")# 主函数，负责获取URL和下载图片defmain(keyword, num_pages, folder_name="images"):
    create_folder(folder_name)with ThreadPoolExecutor(max_workers=10)as executor:for page_num inrange(num_pages):
            img_urls = fetch_image_urls(keyword, page_num)for img_url in img_urls:
                executor.submit(download_image, img_url, folder_name)# 执行爬虫if __name__ =="__main__":
    search_keyword ="风景"# 可替换成需要的搜索关键词
    main(search_keyword, num_pages=5)

代码解析

请求图片数据：fetch_image_urls函数构造URL并发起请求，返回包含图片URL的列表。
图片下载：download_image函数负责下载并保存图片，同时使用多线程加速下载过程。
多线程下载：ThreadPoolExecutor用于并行下载图片。

4. 运行代码

运行以上代码后，会在

images

文件夹下存储批量下载的百度图片。根据网络环境和页面数量，可实现高效的图片下载。

5. 注意事项

反爬策略：百度可能会检测异常访问频率导致IP封禁。可以通过减少请求频率、使用代理IP等方式规避反爬。
使用代理：在高频请求情况下，建议添加代理池来模拟不同IP访问。
延时操作：为避免频繁请求导致的封禁，可以在请求间添加随机延时。

6. 案例总结

以上技术案例展示了如何利用Python爬虫实现大批量百度图片的下载。通过合理构造请求、使用正则表达式解析数据，以及使用多线程提升效率，该爬虫具备较好的性能和可拓展性。
步骤编号步骤名称操作说明****代码示例1环境准备安装所需的Python库：

requests

和

beautifulsoup4

pip install requests

pip install beautifulsoup4

2分析请求URL格式使用浏览器开发者工具（F12）观察百度图片页面的网络请求，找到获取图片的接口URL。URL示例:

https://image.baidu.com/search/acjson?...

3创建图片存储文件夹检查文件夹是否存在，若不存在则创建。

os.makedirs(folder_name)

4获取图片URL列表构造请求URL，使用正则表达式提取图片URL。

fetch_image_urls(keyword, page_num)

5下载图片通过图片URL下载图片数据并保存到本地文件夹中。

download_image(img_url, folder_name)

6多线程并行下载使用

ThreadPoolExecutor

进行多线程图片下载，提高下载效率。

executor.submit(download_image, img_url, folder_name)

7执行爬虫调用

main()

函数，输入关键词和页数，启动爬虫程序，完成图片批量下载。

main(search_keyword, num_pages=5)

8反爬策略加入延时、代理IP等措施，避免因高频访问被封禁。使用

time.sleep()

或代理池9案例总结通过Python爬虫实现百度图片批量下载，分析URL结构、多线程加速下载，并总结反爬注意事项。-

标签：爬虫

本文转载自: https://blog.csdn.net/weixin_59383576/article/details/143445880
版权归原作者 知孤云出岫 所有，如有侵权，请联系我们删除。

爬虫技术——小白入狱案例

目录

1. 案例概述

2. 案例需求分析

3. 实现步骤

Step 1: 环境准备

Step 2: 分析百度图片URL请求规律

Step 3: 编写爬虫代码

代码解析

4. 运行代码

5. 注意事项

6. 案例总结

发表评论

“爬虫技术——小白入狱案例”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航