【小5聊】Python3 使用selenium模块实现简单爬虫系列一

第一次听说Python还是在工作的时候，还是一位女生在用，当时她说可以用来处理excel文档，特别是一些统计分析。第二次让我真正进入python世界，还是在一次C站举办的大赛上。聊聊你是因为什么机缘巧合进入到python圈的呢？不妨留言说说

本期主要是聊聊，我接触到的selenium模块实现简单的爬虫效果

爬虫输出标题效果

1、开发环境

1）windows 11 家庭中文版

说实在的，win11真心不够稳定和好用，特别是改了那个鼠标右键出菜单那个，非常不习惯

2）Visual Studio 2022 社区版

3）Python 3.9

2、爬虫场景

1）什么是爬虫

一般指网络爬虫，自动获取网页内容的程序

2）先简单设置一个爬虫场景

当程序运行后，能够爬取C站首页推荐区域的前10条资讯标题

3、小知识点

1）函数和模块

python本身内置了一些常用函数，以及一些内置的模块，模块下又有很多函数方法

比如：math和random模块分别包含了数学运算相关的函数以及随机数相关的函数

2）引入模块必不可少

3）import和from import的区别

两者都可以为导入目标重新命名

import 具体到模块，不能具体到函数和类等

from import可以具体到类、函数

4、爬虫编码分析

1）Selenium

主要用于Web应用程序的自动化测试工具包

2）Webdriver

调用浏览器的API（程序接口），并返回响应结果的工具，这个工具包在Selenium包里面

3）安装模块

4）对目标内容进行分析

爬虫目标的标题为span标签，且class为blog-text

5）下载chromedriver.exe

点击下载-chromedriver.exe，尽量放到英文目录

6）常见问题 - 编码无法识别

在脚本开头写上：# coding=gb2312 或者 # coding=utf-8

7）'WebDriver' object has no attribute

可能已经使用了新的写法

5、完整代码

# coding=gb2312
from selenium import webdriver
from selenium.webdriver.common.by import By
# 导入selenium自动化模块的子模块-webdriver-浏览器驱动模块

# chrom谷歌浏览器方式打开指定网站
driver = webdriver.Chrome()
driver.get("https://blog.csdn.net")
 
# 获取返回多个span标签对象
spans = driver.find_elements(by=By.CLASS_NAME,value='blog-text')

for span in spans:
    # 标题文本
    print(span.text)

标签：爬虫 selenium python

本文转载自: https://blog.csdn.net/lmy_520/article/details/128385086
版权归原作者 小5聊 所有，如有侵权，请联系我们删除。

【小5聊】Python3 使用selenium模块实现简单爬虫系列一

1、开发环境

2、爬虫场景

3、小知识点

4、爬虫编码分析

5、完整代码

发表评论

“【小5聊】Python3 使用selenium模块实现简单爬虫系列一”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航