在本文中,我们将学习如何使用 Python 的
requests
和
BeautifulSoup
库进行网页抓取。我们将从基本的网页请求开始,逐步扩展到更高级的主题,如处理分页、AJAX 请求、正则表达式和异步抓取。
1. 使用 requests 获取网页
要检索网页的内容,我们可以使用
requests
库。以下是一个简单的示例:
import requests
url ='https://example.com'
response = requests.get(url)
html = response.text
2. 使用 BeautifulSoup 解析 HTML
要解析 HTML 并提取数据,我们可以使用
BeautifulSoup
库。以下是一个简单的示例:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html,'html.parser')print(soup.prettify())# 美观地打印 HTML
3. HTML 树导航
要使用标签查找元素,我们可以使用
BeautifulSoup
的方法。以下是一个简单的示例:
title = soup.title.text # 获取页面标题
headings = soup.find_all('h1')# 列出所有 <h1> 标签
4. 使用 CSS 选择器
要使用 CSS 选择器选择元素,我们可以使用
BeautifulSoup
的
select
方法。以下是一个简单的示例:
articles = soup.select('div.article')# 所有具有类 'article' 的 <div> 元素
5. 从标签中提取数据
要从 HTML 元素中提取文本和属性,我们可以使用
BeautifulSoup
的方法。以下是一个简单的示例:
for article in articles:
title = article.h2.text # 获取 <h2> 标签内的文本
link = article.a['href']# 获取 <a> 标签的 'href' 属性print(title, link)
6. 处理相对 URL
要将相对 URL 转换为绝对 URL,我们可以使用
urllib.parse
库的
urljoin
函数。以下是一个简单的示例:
from urllib.parse import urljoin
absolute_urls =[urljoin(url, link)for link in relative_urls]
7. 处理分页
要跨多个页面抓取内容,我们可以使用循环。以下是一个简单的示例:
base_url ="https://example.com/page/"for page inrange(1,6):# 对 5 个页面进行循环
page_url = base_url +str(page)
response = requests.get(page_url)# 处理每个页面的内容
8. 处理 AJAX 请求
要抓取 AJAX 请求加载的数据,我们可以找到 AJAX 请求的 URL(使用浏览器的开发者工具)并获取它。以下是一个简单的示例:
ajax_url ='https://example.com/ajax_endpoint'
data = requests.get(ajax_url).json()# 假设响应为 JSON
9. 在网页抓取中使用正则表达式
要使用正则表达式提取数据,我们可以使用
re
库。以下是一个简单的示例:
import re
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', html)
10. 尊重 robots.txt
要检查 robots.txt 的抓取权限,我们可以使用
urllib.robotparser
库。以下是一个简单的示例:
from urllib.robotparser import RobotFileParser
rp = RobotFileParser()
rp.set_url('https://example.com/robots.txt')
rp.read()
can_scrape = rp.can_fetch('*', url)
11. 使用会话和 Cookie
要维护会话并处理 cookie,我们可以使用
requests
库的
Session
类。以下是一个简单的示例:
session = requests.Session()
session.get('https://example.com/login')
session.cookies.set('key','value')# 如果需要,设置 cookie
response = session.get('https://example.com/protected_page')
12. 使用浏览器自动化进行抓取(selenium 库)
要抓取 JavaScript 呈现的动态内容,我们可以使用
selenium
库。以下是一个简单的示例:
from selenium import webdriver
browser = webdriver.Chrome()
browser.get('https://example.com')
content = browser.page_source
# 使用 BeautifulSoup 等解析和提取数据
browser.quit()
13. 网页抓取中的错误处理
要处理错误和异常,我们可以使用 try-except 语句。以下是一个简单的示例:
try:
response = requests.get(url, timeout=5)
response.raise_for_status()# 为错误状态码引发错误except requests.exceptions.RequestException as e:print(f"Error: {e}")
14. 异步网页抓取
要异步抓取网站以加快数据检索速度,我们可以使用
aiohttp
库。以下是一个简单的示例:
import aiohttp
import asyncio
asyncdeffetch(url):asyncwith aiohttp.ClientSession()as session:asyncwith session.get(url)as response:returnawait response.text()
urls =['https://example.com/page1','https://example.com/page2']
loop = asyncio.get_event_loop()
pages = loop.run_until_complete(asyncio.gather(*(fetch(url)for url in urls)))
15. 数据存储(CSV、数据库)
要将抓取的数据存储在 CSV 文件或数据库中,我们可以使用
csv
库。以下是一个简单的示例:
import csv
withopen('output.csv','w', newline='')asfile:
writer = csv.writer(file)
writer.writerow(['Title','URL'])for article in articles:
writer.writerow([article['title'], article['url']])
通过学习这些技巧,您将能够使用 Python 进行高效的网页抓取。请确保遵循网站的 robots.txt 规则并尊重网站所有者的意愿。
版权归原作者 civilpy 所有, 如有侵权,请联系我们删除。