0


【小5聊】Python3 使用selenium模块实现简单爬虫系列一

第一次听说Python还是在工作的时候,还是一位女生在用,当时她说可以用来处理excel文档,特别是一些统计分析。第二次让我真正进入python世界,还是在一次C站举办的大赛上。聊聊你是因为什么机缘巧合进入到python圈的呢?不妨留言说说

本期主要是聊聊,我接触到的selenium模块实现简单的爬虫效果

爬虫输出标题效果

1、开发环境

1)windows 11 家庭中文版

说实在的,win11真心不够稳定和好用,特别是改了那个鼠标右键出菜单那个,非常不习惯

2)Visual Studio 2022 社区版

3)Python 3.9

2、爬虫场景

1)什么是爬虫

一般指网络爬虫,自动获取网页内容的程序

2)先简单设置一个爬虫场景

当程序运行后,能够爬取C站首页推荐区域的前10条资讯标题

3、小知识点

1)函数和模块

python本身内置了一些常用函数,以及一些内置的模块,模块下又有很多函数方法

比如:math和random模块分别包含了数学运算相关的函数以及随机数相关的函数

2)引入模块必不可少

3)import和from import的区别

两者都可以为导入目标重新命名

import 具体到模块,不能具体到函数和类等

from import可以具体到类、函数

4、爬虫编码分析

1)Selenium

主要用于Web应用程序的自动化测试工具包

2)Webdriver

调用浏览器的API(程序接口),并返回响应结果的工具,这个工具包在Selenium包里面

3)安装模块

4)对目标内容进行分析

爬虫目标的标题为span标签,且class为blog-text

5)下载chromedriver.exe

点击下载-chromedriver.exe,尽量放到英文目录

6)常见问题 - 编码无法识别

在脚本开头写上:# coding=gb2312 或者 # coding=utf-8

7)'WebDriver' object has no attribute

可能已经使用了新的写法

5、完整代码

# coding=gb2312
from selenium import webdriver
from selenium.webdriver.common.by import By
# 导入selenium自动化模块的子模块-webdriver-浏览器驱动模块

# chrom谷歌浏览器方式打开指定网站
driver = webdriver.Chrome()
driver.get("https://blog.csdn.net")
 
# 获取返回多个span标签对象
spans = driver.find_elements(by=By.CLASS_NAME,value='blog-text')

for span in spans:
    # 标题文本
    print(span.text)
标签: 爬虫 selenium python

本文转载自: https://blog.csdn.net/lmy_520/article/details/128385086
版权归原作者 小5聊 所有, 如有侵权,请联系我们删除。

“【小5聊】Python3 使用selenium模块实现简单爬虫系列一”的评论:

还没有评论