Python基础12-爬虫抓取网页内容

在本文中，我们将学习如何使用 Python 的

requests

和

BeautifulSoup

库进行网页抓取。我们将从基本的网页请求开始，逐步扩展到更高级的主题，如处理分页、AJAX 请求、正则表达式和异步抓取。

1. 使用 requests 获取网页

要检索网页的内容，我们可以使用

requests

库。以下是一个简单的示例：

import requests

url ='https://example.com'
response = requests.get(url)
html = response.text

2. 使用 BeautifulSoup 解析 HTML

要解析 HTML 并提取数据，我们可以使用

BeautifulSoup

库。以下是一个简单的示例：

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'html.parser')print(soup.prettify())# 美观地打印 HTML

3. HTML 树导航

要使用标签查找元素，我们可以使用

BeautifulSoup

的方法。以下是一个简单的示例：

title = soup.title.text  # 获取页面标题
headings = soup.find_all('h1')# 列出所有 <h1> 标签

4. 使用 CSS 选择器

要使用 CSS 选择器选择元素，我们可以使用

BeautifulSoup

的

select

方法。以下是一个简单的示例：

articles = soup.select('div.article')# 所有具有类 'article' 的 <div> 元素

5. 从标签中提取数据

要从 HTML 元素中提取文本和属性，我们可以使用

BeautifulSoup

的方法。以下是一个简单的示例：

for article in articles:
    title = article.h2.text  # 获取 <h2> 标签内的文本
    link = article.a['href']# 获取 <a> 标签的 'href' 属性print(title, link)

6. 处理相对 URL

要将相对 URL 转换为绝对 URL，我们可以使用

urllib.parse

库的

urljoin

函数。以下是一个简单的示例：

from urllib.parse import urljoin

absolute_urls =[urljoin(url, link)for link in relative_urls]

7. 处理分页

要跨多个页面抓取内容，我们可以使用循环。以下是一个简单的示例：

base_url ="https://example.com/page/"for page inrange(1,6):# 对 5 个页面进行循环
    page_url = base_url +str(page)
    response = requests.get(page_url)# 处理每个页面的内容

8. 处理 AJAX 请求

要抓取 AJAX 请求加载的数据，我们可以找到 AJAX 请求的 URL（使用浏览器的开发者工具）并获取它。以下是一个简单的示例：

ajax_url ='https://example.com/ajax_endpoint'
data = requests.get(ajax_url).json()# 假设响应为 JSON

9. 在网页抓取中使用正则表达式

要使用正则表达式提取数据，我们可以使用

re

库。以下是一个简单的示例：

import re

emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', html)

10. 尊重 robots.txt

要检查 robots.txt 的抓取权限，我们可以使用

urllib.robotparser

库。以下是一个简单的示例：

from urllib.robotparser import RobotFileParser

rp = RobotFileParser()
rp.set_url('https://example.com/robots.txt')
rp.read()
can_scrape = rp.can_fetch('*', url)

11. 使用会话和 Cookie

要维护会话并处理 cookie，我们可以使用

requests

库的

Session

类。以下是一个简单的示例：

session = requests.Session()
session.get('https://example.com/login')
session.cookies.set('key','value')# 如果需要，设置 cookie
response = session.get('https://example.com/protected_page')

12. 使用浏览器自动化进行抓取（selenium 库）

要抓取 JavaScript 呈现的动态内容，我们可以使用

selenium

库。以下是一个简单的示例：

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://example.com')
content = browser.page_source
# 使用 BeautifulSoup 等解析和提取数据
browser.quit()

13. 网页抓取中的错误处理

要处理错误和异常，我们可以使用 try-except 语句。以下是一个简单的示例：

try:
    response = requests.get(url, timeout=5)
    response.raise_for_status()# 为错误状态码引发错误except requests.exceptions.RequestException as e:print(f"Error: {e}")

14. 异步网页抓取

要异步抓取网站以加快数据检索速度，我们可以使用

aiohttp

库。以下是一个简单的示例：

import aiohttp
import asyncio

asyncdeffetch(url):asyncwith aiohttp.ClientSession()as session:asyncwith session.get(url)as response:returnawait response.text()

urls =['https://example.com/page1','https://example.com/page2']
loop = asyncio.get_event_loop()
pages = loop.run_until_complete(asyncio.gather(*(fetch(url)for url in urls)))

15. 数据存储（CSV、数据库）

要将抓取的数据存储在 CSV 文件或数据库中，我们可以使用

csv

库。以下是一个简单的示例：

import csv

withopen('output.csv','w', newline='')asfile:
    writer = csv.writer(file)
    writer.writerow(['Title','URL'])for article in articles:
        writer.writerow([article['title'], article['url']])

通过学习这些技巧，您将能够使用 Python 进行高效的网页抓取。请确保遵循网站的 robots.txt 规则并尊重网站所有者的意愿。

标签： python 爬虫 okhttp

本文转载自: https://blog.csdn.net/baidu_22713341/article/details/138259696
版权归原作者 civilpy 所有，如有侵权，请联系我们删除。

Python基础12-爬虫抓取网页内容

1. 使用 requests 获取网页

2. 使用 BeautifulSoup 解析 HTML

3. HTML 树导航

4. 使用 CSS 选择器

5. 从标签中提取数据

6. 处理相对 URL

7. 处理分页

8. 处理 AJAX 请求

9. 在网页抓取中使用正则表达式

10. 尊重 robots.txt

11. 使用会话和 Cookie

12. 使用浏览器自动化进行抓取（selenium 库）

13. 网页抓取中的错误处理

14. 异步网页抓取

15. 数据存储（CSV、数据库）

发表评论

“Python基础12-爬虫抓取网页内容”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航