爬取公布的招聘信息（selenium实现）

1 案例描述

当大家想了解某个学校相关的就业招聘等信息时，一般的操作都是先进入学校的官网，找到我们需要的关键字点击进入浏览，每个学校的信息不一样，数据也是相当多。于是我也想知道本校的就业服务相关信息，接下来我就用所学的爬虫知识以我们学校为案例完成这个项目。这也是我第一次发文，肯定不完美，希望大家多多鼓励，我会继续努力的，以后也会在这里和你们一起学习。

这是我想要得到的数据

2 爬虫

2.1 爬虫的概念

又称网络蜘蛛，就是通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。

2.2 爬虫的工作原理

爬虫的四个步骤：

（1）获取数据：爬虫程序会根据我们提供的网址，向服务器发起请求，然后给予相应的数据；

（2) 解析数据：爬虫程序会把服务器返回的数据解析成我们能读懂的格式；

（3）提取数据：爬虫程序从中再次提取出我们需要的数据；

（4）储存数据：爬虫程序会把我们最终需要的数据保存或下载下来；

2.3 爬虫的基本流程

(1) 请求网页: 通过 HTTP 库向目标网站发起请求，即发送一个 Request，请求可以包含额外的 headers 等信息，等待服务器响应!
(2) 获得相应内容: 如果服务器能正常响应，会得到一个 Response，Response 的内容便是所要获取的页面内容，类型可能有 HTML，Json 字符串，二进制数据（如图片视频）等类型。
(3) 解析内容: 得到的内容可能是 HTML，可以用正则表达式、网页解析库进行解析。可能是 Json，可以直接转为 Json 对象解析，可能是二进制数据，可以做保存或者进一步的处理。
(4) 存储解析的数据: 数据存储格式有很多，可以存为txt，csv，excel或者直接存为数据库。

3 基本操作

3.1 安装第三方库

Python有很多第三方库，包括我们使用的爬虫、数据分析，还有机器学习之类，Python提供的安装方式多种多样，常用语法为 pip install 库名，或者也可以把第三方库下载到本地，然后安装到如下所示（python文件夹）目录：

下图以jieba安装为例

****图1 安装到文件夹 ****

注：此处是python的库存储位置（当pip安装失败（在引用中显示没有该模块）时，可以尝试使用此法）

引用：

图2 查看安装成功

安装成功。这样，就可以安装我们所要用到的库。

3.2 库的作用及其使用

此次实战我们需要用到的第三方库有：

# 导入相关模块
from selenium import webdriver
import time
from lxml import etree
import pandas as pd

（1）selenium库作用：用来操控浏览器，模拟人自动化做一些行为动作，主要因为测试直接运行在浏览器中，就可以像用户平常的在操作一样，支持多种浏览器。

selenium库的使用：

from selenium import webdriver # 导入库
br = webdriver.浏览器（传入浏览器的驱动程序） # 声明浏览器

实例化一个浏览器，这样就可以打开一个浏览器对象

br.get("") #引号里面放入你想要打开的网站地址

让浏览器发起一个指定url对应请求

（2）time模块的作用：是系统中自带的模块，让程序暂停执行指定的秒数，适当停留，有一个休眠的过程，看爬取效果。

time模块的使用：

import time # 导包
time.sleep(2) # 让程序睡2秒

每一步操作都可以使用time模块，让模拟更真实

（3）lxml库的作用：解析和提取XML和HTML中的数据，支持Xpath解析方式，利用语法，来定位特定元素及节点信息，效率很高。

lxml库的使用：

from lxml import etree #导入Xpath（将html中的数据进行提取）
tree = etree.HTML(page_text) #实例化一个对象，接收传入的页面源码数据

txt=tree.xpath("") #获取标签

获取标签有两种方法，绝对路径和相对路径。

（4）pandas库的作用：基于numpy的一种工具，为解决数据分析任务而创建的，可以处理csv，excel，html文本等文件。

pandas库的使用：

import pandas as pd #导入已经安装的包
pd.Series(data,index=index,dtype=dtype) #series对象的创建

data：数据，可以是列表，字典或Numpy数组
index：索引，为可选参数
dtype: 数据类型（支持多种类型），为可选参数

import numpy as np

用一维数组创建

dic = {"key1":value1,
       "key2":value2,
        .....}
fal = pd.Series(dic)

用字典创建，默认以键为index值为data

pd.DataFrame(data,index=index,columns=columns)

data：数据，可以是列表，字典或Numpy数组
index：索引，为可选参数
columns: 列标签，为可选参数

知识当然是无止境的呀，所以小菜鸟所展示的也只是冰山一角，还有很多需要补充的哦。

4 Python代码实现

# 导入相关模块
from selenium import webdriver
import time
from lxml import etree
import pandas as pd
# 定义两个列表，一个存信息，一个存时间
list1=[]
list2=[]
# 封装
def gettxt(page_text):
    # 解析数据
    tree=etree.HTML(page_text)
    # 遍历第一页的信息
    for i in range(1,21): 
         #获取第一页所有招聘信息
        txt=tree.xpath('/html/body/div/div[5]/div[2]/ul/li['+str(i)+']/span[1]/a/text()')
         #获取第一页所有招聘信息的时间
        txt1=tree.xpath('/html/body/div/div[5]/div[2]/ul/li['+str(i)+']/span[2]/text()')
        # 列表转字符串，使用str()强转会把[]转进去，所以使用join
        txt = "".join(txt)
        #替换转义字符
        for i in "\t\n":
            txt=txt.replace(i,"")
        # 使用空列表添加值
        list1.append(txt)
        list2.append("".join(txt1))
# 利用驱动打开一个网页
bro=webdriver.Edge(executable_path="D:\\vs code\\项目\\msedgedriver")
# 访问页面页数，每次访问一页
for i in range(1,90):
    # 向网站发起请求
    bro.get("http://www.gzmdrw.cn/rw/welcome/1288759137383718")
    # 用page_text属性获取当前页面所对应的源码数据
    page_text=bro.page_source
    gettxt(page_text)
#字典
data={'信息':list1,'时间':list2}
#DataFrame()函数将字典转换
df=pd.DataFrame(data)
# 存储格式为csv并保存在本地
df.to_csv("就业数据.csv")
# 休眠
time.sleep(2)
#爬取结束退出
bro.quit

得到的运行结果

格式化后的效果

标签： python selenium 爬虫

本文转载自: https://blog.csdn.net/weixin_61181717/article/details/124718885
版权归原作者 @橘柑橙柠桔柚 所有，如有侵权，请联系我们删除。

爬取公布的招聘信息（selenium实现）

1 案例描述

2 爬虫

2.1 爬虫的概念

2.2 爬虫的工作原理

2.3 爬虫的基本流程

3 基本操作

3.1 安装第三方库

3.2 库的作用及其使用

4 Python代码实现

发表评论

“爬取公布的招聘信息（selenium实现）”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航