使用 Selenium 和 Python 抓取 CSDN 博客所有文章附源码

在这篇博客中，我将向大家展示如何使用 Selenium 和 Python 来抓取 CSDN 博客的文章链接。Selenium 是一个强大的工具，可以自动化浏览器操作，而 Python 则是一个非常适合进行数据抓取的编程语言。

准备工作

在开始之前，我们需要确保已经安装了以下工具：

Python：可以从 Python 官方网站下载并安装。
Selenium：可以通过以下命令安装： pip install selenium
Chrome 浏览器：确保已经安装了 Chrome 浏览器。
ChromeDriver：下载与 Chrome 浏览器版本匹配的 ChromeDriver，并将其路径添加到系统环境变量中。可以从 ChromeDriver 官方网站下载。

代码解释

设置 Chrome 驱动器：我们使用 Options 类来设置 Chrome 驱动器的选项，使其在无头模式下运行（即不显示浏览器窗口）。
创建 Chrome 浏览器实例：使用 webdriver.Chrome 创建一个新的 Chrome 浏览器实例，并应用我们设置的选项。
循环遍历页面：我们使用一个循环来遍历指定范围内的页面。在每次循环中，用户需要输入博客用户 ID，然后程序会构建目标 URL 并让浏览器打开该页面。
查找并提取链接：我们使用 find_elements 方法查找页面中的所有 h4 标签，并在每个 h4 标签中查找 a 标签。然后，我们提取 a 标签的 href 属性和文本内容，并打印出来。
关闭浏览器：最后，我们使用 driver.quit() 关闭浏览器实例。

代码实现

以下是完整的代码示例：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By

# 设置Chrome驱动器
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

# 创建一个新的Chrome浏览器实例
driver = webdriver.Chrome(options=chrome_options)

# 目标网页的URL
for a in range(1, 3):  # 修改这里
    keyword = input('请输入博客用户ID:')
    url = f'https://blog.csdn.net/{keyword}/article/list/{a}'
    driver.get(url)
    # 让浏览器打开目标网页

    # 查找所有的h4标签
    h4_tags = driver.find_elements(By.TAG_NAME, 'h4')

    # 遍历所有的h4标签
    for h4 in h4_tags:
        # 找到所有的a标签
        a_tags = h4.find_elements(By.TAG_NAME, 'a')
        for a_tag in a_tags:
            # 获取a标签的href属性
            href = a_tag.get_attribute('href')
            # 获取a标签的文本内容
            text = a_tag.text.strip()
            print(f'链接: {href}, 文本: {text}')
# 关闭浏览器
driver.quit()

运行结果：

说明

这段代码使用Selenium从CSDN博客用户的文章列表页面抓取数据。具体步骤如下：

设置Chrome驱动器：配置Chrome浏览器的选项，使其在无头模式下运行。
创建浏览器实例：创建一个新的Chrome浏览器实例。
输入用户ID：用户输入博客用户ID。
打开目标网页：根据用户ID和页码构建URL，并让浏览器打开目标网页。
查找标签：查找所有的h4标签。
遍历标签：遍历所有找到的h4标签，进一步查找其中的a标签，并提取href属性和文本内容。
打印结果：打印提取的数据。
关闭浏览器：关闭浏览器以释放资源。

扩展

可以对代码进行以下扩展：

错误处理：增加更多的错误处理机制，以应对不同的异常情况，例如网络错误或解析错误。
数据存储：将提取的数据存储到数据库或文件中，以便后续分析。
多页面抓取：如果需要抓取更多页面的数据，可以增加翻页功能。
数据清洗：对提取的数据进行清洗和格式化，以便更好地使用。

爬虫项目推荐

使用 Python 指定内容爬取百度引擎搜索结果-CSDN博客
使用Python和Selenium爬取QQ新闻热榜-CSDN博客
使用Selenium 和 Python 抓取快手网页大量评论-CSDN博客
使用 Python 和 Selenium 爬取快手视频附源码-CSDN博客
如何使用Python、Selenium 爬取酷狗音乐网站的歌曲信息-CSDN博客
使用Python 和 Selenium 抓取酷狗音乐专辑附源码-CSDN博客

其他项目推荐

使用 TensorFlow 和 CIFAR-10 数据集进行图像分类-CSDN博客
在 Python 中编写一个简单的文件搜索工具-CSDN博客
使用Python从.exe文件中提取图标_提取文件图标-CSDN博客
Python 文件搜索程序详解与实现-CSDN博客
使用Python 进行文本情感分析-CSDN博客
使用 Python和PyQt5 打造你的专属文件查询工具！附源码-CSDN博客
用Python和PyQt5打造你的专属音乐播放器！轻松创建带封面的音乐列表-CSDN博客

总结

这段代码提供了一个基础的网页数据抓取示例，通过进一步的扩展和优化，可以实现更复杂和多样化的数据抓取需求。

结论

这段代码展示了如何使用Selenium进行网页数据抓取。通过适当的扩展和调整，可以应用于各种不同的数据抓取任务，为数据分析和研究提供支持。

欢迎在评论区留言。继续探索和学习，祝你在深度学习的旅程中取得更多的成果！🚀

希望这个博客对你有所帮助！如果你有任何问题需要进一步的指导，请随时提问。继续加油！ 🚀

标签： python 数据分析开发语言

本文转载自: https://blog.csdn.net/m0_74972192/article/details/140896510
版权归原作者 LIY若依 所有，如有侵权，请联系我们删除。