0


基于DrissionPage实现淘宝商品信息的批量获取

摘要

本文章主要讲解如何利用DrissionPage来避开淘宝的反爬机制,批量获取商品信息并保存到xlsx表格文件中,用于数据分析或深度学习模型的训练。

(注:本文代码为一步一步调试出来的测试版,只是提供调试思路以及初步实现,并不能作为高效的成品程序,如有需要还请各位自行编写喵)


1. 淘宝强大的反爬机制(了解即可,可跳过):

相信很多小伙伴们在学习网络爬虫之后会到处寻找网站练手,而淘宝网作为国内最大的电商平台之一,拥有海量的商品信息以及交易信息,自然会是很多人选择下手的目标。

然而,你很快就碰壁了。

首先,你先是尝试利用requests,接受到的响应是来自淘宝的嘲讽“哎呦出错了”。

接着,你开始尝试改用selenium,结果却是一直触发滑块验证,而在编写程序模拟人拖动滑块之后,网页却出了问题,不管你是手动还是自动登录一律都是在滑块验证码时不通过,最后只能无功而返。

关于淘宝反爬机制的具体解析,网络上已有博主作出分析,这里不再赘述,感兴趣的友友们可以参考这篇文章:https://www.cnblogs.com/zycorn/p/14609974.html


2. 简单介绍DrissionPage工具

DrissionPage 是一个基于 Python 的网页自动化工具,由国内大佬开发。

它既能控制浏览器,也能收发数据包,还能把两者合而为一。

可兼顾浏览器自动化的便利性和 requests 的高效率。

它功能非常强大,内置很多人性化设计和便捷功能,且内部注释均为中文。

它的语法简洁而优雅,代码量少,对新手非常友好。

官方文档:DrissionPage官网

(注:在使用DrissionPage的过程中遇到的常见问题都可以在官方文档上找到解答)


3. 开始实现

3.1 导入库

本程序使用到的库包括time、DrissionPage、openpyxl(用于保存为xlsx表格文件)

DrissionPage安装代码如下:

pip install DrissionPage

openpyxl安装代码如下:

pip install openpyxl

开始导入相关库文件:

from DrissionPage import ChromiumPage
import time
import openpyxl

3.2 初始化

在开始调试之前,我们首先创建一个ChromiumPage对象,然后向淘宝的登录界面发送请求,进入淘宝的登录界面:

# 尝试启动浏览器
page = ChromiumPage()    #创建一个ChromiumPage对象
page.get('https://login.taobao.com')

3.3 定位元素,登录进入首页

登录界面

进入到登录界面之后,我们需要定位以下三个元素:账号输入框登录密码以及登录按钮。

定位元素的思路与具体步骤:按F12进入开发者模式后,点击"Elements"(“元素”),在其中找到上述三个元素的JavaScript代码,相关操作如下图所示:

定位元素

找到相应元素之后,基于其中的class属性,我们就可以在代码中实现定位并模拟操作相关元素了。

(这里小生已经帮大家找好了,不确定淘宝后续是否会修改,建议大家先自行操作一遍

定位元素首先需要我们创建一个 ele 对象,利用 page.ele() ,括号中输入的是定位元素的方式。其中 “#” 代表的是按 id 定位元素;“@” 代表的是按任意属性查找元素。

文本框元素可以使用 ele.input() 输入你想要输入的内容(比如账号和密码);

按钮元素可以使用ele.click()来实现按钮的点击。

具体代码如下:

# 定位到账号文本框,获取文本框元素
ele = page.ele('#fm-login-id')
# 输入对文本框输入账号
ele.input('你的账号')
time.sleep(2)
# 定位到密码文本框并输入密码
page.ele('#fm-login-password').input('你的密码')
time.sleep(2)
# 点击登录按钮
page.ele('@class=fm-button fm-submit password-login').click()
time.sleep(5)

这里小生用到了time.sleep(),其实是为了方便调试代码喵。

点击登录按钮后,由于可能会出现滑块识别或是弹窗提示等事件,所以这里预留了5秒的时间,以便调试的时候手动操作,应对突发事件。

之后就顺利进入到淘宝的首页了。

3.4 定位元素,进入商品列表

正常情况下我们想要获取到大量的商品信息,首先需要进入到商品列表界面,比如这里搜索“小题狂做”之后进入到的商品列表界面。

具体思路:

(1)和步骤3.3方法一样,首先利用开发者界面在“Elements”栏中找到相关JavaScript代码

(2)根据属性,在调试代码中定位搜索框元素和“搜索”按钮元素

(3)操纵元素,在搜索框中输入想要查找的商品(比如这里的“小题狂做”),接着点击“搜索”按钮

代码实现:

page.ele('@aria-label=请输入搜索文字').input('小题狂做')
time.sleep(2)
page.ele('@class=btn-search').click()

3.5 在商品列表定位商品信息

进入商品列表后,我们接着要做的是想办法获取各个商品的详细信息。

还是老方法,这里我们进入开发者界面,在 Elements 中查找商品信息相关的内容后定位获取信息。

这里找寻商品相关信息

经过小生分析发现,所有商品的class属性值均为同一串字符:Card--doubleCardWrapper--L2XFE73(这里还是建议各位先自行尝试查找,防止后续属性值发生改变喵)

根据这一发现,我们就可以通过属性值获取这一页中所有商品的基本信息

具体实现代码如下:

# 获取所有商品信息
products = page.eles('@class=Card--doubleCardWrapper--L2XFE73')

# 将商品基本信息和链接打印出来
for product in products:
    print(product.text, product.link)

输出如下:

3.6 分析商品信息,进行数据清洗

上面我们已经获取到这一页中所有商品的基本信息了,大致浏览一下我们发现:获取到的信息比较杂,并且顺序也很乱

接下来我们要对获取到的数据进行清洗、分类,操作如下:

title = ['商品名', '书名', '出版社', '价格', '销量', '发货省份', '是否包邮', '店铺名称', '商品链接']

for product in products:
    lis = ['无', '无', '无', '无', '无', '无', '否', '无', '无']
    pre_lis = product.text.split('\n')

    lis[0] = pre_lis[0]
    if '书名' in pre_lis:
        lis[1] = pre_lis[pre_lis.index('书名') - 1]
    if '出版社名称' in pre_lis:
        lis[2] = pre_lis[pre_lis.index('出版社名称') - 1]
    if '¥' in pre_lis:
        lis[3] = pre_lis[pre_lis.index('¥') + 1]
        lis[4] = pre_lis[pre_lis.index('¥') + 2]
        lis[5] = pre_lis[pre_lis.index('¥') + 3]
    if '包邮' in pre_lis:
        lis[6] = '是'
    lis[7] = pre_lis[-2]
    lis[8] = product.link

3.7 将数据存入xlsx文件

这里我们需要用到openpyxl来对清洗后的数据进行存储。

上面一步中,我们循环遍历整个products,每次循环都会清洗一个数据,因此,我们可以在每一个数据清洗出来之后直接存入xlsx中。

具体操作如下:

wb = openpyxl.Workbook()
ws = wb.active
title = ['商品名', '书名', '出版社', '价格', '销量', '发货省份', '是否包邮', '店铺名称', '商品链接']
ws.append(title)

for product in products:
    lis = ['无', '无', '无', '无', '无', '无', '否', '无', '无']
    pre_lis = product.text.split('\n')

    lis[0] = pre_lis[0]
    if '书名' in pre_lis:
        lis[1] = pre_lis[pre_lis.index('书名') - 1]
    if '出版社名称' in pre_lis:
        lis[2] = pre_lis[pre_lis.index('出版社名称') - 1]
    if '¥' in pre_lis:
        lis[3] = pre_lis[pre_lis.index('¥') + 1]
        lis[4] = pre_lis[pre_lis.index('¥') + 2]
        lis[5] = pre_lis[pre_lis.index('¥') + 3]
    if '包邮' in pre_lis:
        lis[6] = '是'
    lis[7] = pre_lis[-2]
    lis[8] = product.link
    ws.append(lis)

wb.save('小题狂做淘宝数据.xlsx')

3.8 多页数据批量获取

具体思路很简单,就是在获取完每一页的商品信息之后,我们定位翻页按钮的元素,操纵翻页按钮进入下一页,再获取下一页的内容。该思路可以用一个 for 循环实现,这里不做过多解释。

具体操作代码如下:

wb = openpyxl.Workbook()
ws = wb.active
title = ['商品名', '书名', '出版社', '价格', '销量', '发货省份', '是否包邮', '店铺名称', '商品链接']
ws.append(title)

for i in range(99):

    time.sleep(1)

    time.sleep(2)
    products = page.eles('@class=Card--doubleCardWrapper--L2XFE73')
    for product in products:
        lis = ['无', '无', '无', '无', '无', '无', '否', '无', '无']
        pre_lis = product.text.split('\n')

        lis[0] = pre_lis[0]
        if '书名' in pre_lis:
            lis[1] = pre_lis[pre_lis.index('书名') - 1]
        if '出版社名称' in pre_lis:
            lis[2] = pre_lis[pre_lis.index('出版社名称') - 1]
        if '¥' in pre_lis:
            lis[3] = pre_lis[pre_lis.index('¥') + 1]
            lis[4] = pre_lis[pre_lis.index('¥') + 2]
            lis[5] = pre_lis[pre_lis.index('¥') + 3]
        if '包邮' in pre_lis:
            lis[6] = '是'
        lis[7] = pre_lis[-2]
        lis[8] = product.link
        ws.append(lis)

    print(f'第{i+1}页已完成')

    time.sleep(1)
    page.ele('@class=next-btn next-small next-btn-normal next-pagination-item next-next').click()

wb.save("小题狂做淘宝数据.xlsx")

4. 完整代码

由于这是小生辛辛苦苦调试后编写出来的代码,所以这里完整代码就先不贴出来了喵,感兴趣的友友们可以自己尝试着实现看看,有问题欢迎私信我喵~


我是若琼,一名来自南京邮电大学,爱好编程的大学生,欢迎各位感兴趣的友友们与作者私信交流,也希望各位业内大佬能够多多批评指正喵。

标签: python selenium

本文转载自: https://blog.csdn.net/2301_79886169/article/details/140515871
版权归原作者 Ruo_Qiong4 所有, 如有侵权,请联系我们删除。

“基于DrissionPage实现淘宝商品信息的批量获取”的评论:

还没有评论