0


Airtest-Selenium实操小课:爬取新榜数据

1. 前言

最近看到群里很多小伙伴都在用Airtest-Selenium做一些web自动化的尝试,正好趁此机会,我们也出几个关于web自动化的实操小课,仅供大家参考~

今天跟大家分享的是一个非常简单的爬取网页信息的小练习,在百度找到新榜网页,搜索关键词“自动化”,爬取前5名的公众号名称。

2. 需求分析和准备

整体的需求大致可以分为以下步骤:

  • 打开chrome浏览器
  • 打开百度网页
  • 搜索“新榜官网”
  • 点击“找达人”按钮
  • 搜索关键词“自动化”
  • 爬取排名前5的公众号名称

在写脚本之前,我们需要准备好社区版AirtestIDE,设置好chrome.exe和对应的driver;并且确保我们的chrome浏览器版本不是太高以及selenium是4.0以下即可(这些兼容问题我们都会在后续的版本修复)。

3. 脚本实现

3.1 完整示例代码

接下来就可以着手写脚本啦,关于web自动化脚本,我们可以借助IDE的selenium Window ,方便我们录制控件信息和快速使用常用接口:

完整的参考代码如下:

  1. # -*- encoding=utf8 -*-
  2. __author__ = "AirtestProject"
  3. from airtest.core.api import *
  4. from airtest_selenium.proxy import WebChrome
  5. from selenium.webdriver.common.keys import Keys
  6. from selenium.webdriver.common.by import By
  7. """
  8. 任务描述:打开chrome浏览器,打开百度搜索新榜,进入新榜搜索关键词“自动化”,爬取自动化综合排名前10的公众号名称
  9. https://www.newrank.cn/search/gongzhonghao/%E8%87%AA%E5%8A%A8%E5%8C%96
  10. """
  11. def start_selenium():
  12. # 创建一个实例,代码运行到这里,会打开一个chrome浏览器
  13. driver = WebChrome()
  14. driver.implicitly_wait(20)
  15. driver.get("https://www.baidu.com/")
  16. # 输入搜索关键词并提交搜索
  17. search_box = driver.find_element_by_name('wd')
  18. search_box.send_keys('新榜官网')
  19. search_box.submit()
  20. # 使用XPath查找文本为 "上海新榜信息技术股份" 的元素并点击
  21. try:
  22. element = driver.find_element_by_xpath("//div[@id='content_left']/div[@id='1']/div[@class='c-container']/div[1]/h3[@class='c-title t t tts-title']/a")
  23. except Exception as e:
  24. element = driver.find_element_by_xpath('//*/text()[normalize-space()="上海新榜信息技术股份"]/parent::*')
  25. element.click()
  26. # 获取所有窗口句柄
  27. window_handles = driver.window_handles
  28. # 切换到新打开的窗口
  29. driver.switch_to.window(window_handles[1])
  30. # 获取新页面的链接
  31. new_page_url = driver.current_url
  32. # 打印新页面的链接
  33. print(new_page_url)
  34. driver.get(new_page_url)
  35. # # 在主内容内部查找 "找达人" 按钮并点击
  36. search_box = driver.find_element_by_xpath('//button[@class="ant-btn ant-btn-primary ant-btn-lg index_searchBtn__c3q_1"]//a')
  37. print(search_box.text)
  38. # 获取a标签的URL
  39. url = search_box.get_attribute('href')
  40. # 打印URL
  41. print(url)
  42. driver.get(url) # 请求搜索链接-跳转
  43. # 输入搜索关键词并提交搜索
  44. search_box = driver.find_element_by_id('rc_select_0')
  45. # 模拟发送Backspace键
  46. search_box.send_keys(Keys.BACKSPACE) # 清空内容
  47. search_box.send_keys(Keys.BACKSPACE)
  48. search_box.send_keys('自动化')
  49. # 模拟发送Enter键
  50. search_box.send_keys(Keys.ENTER)
  51. sleep(5)
  52. list_date = driver.find_elements(By.XPATH, "//div[@class='ant-spin-container']//li")
  53. for item in list_date:
  54. name_str = item.find_element_by_class_name("index_name__Fk83i")
  55. print(name_str.text)
  56. if __name__ == "__main__":
  57. start_selenium()
3.2 重要知识点
1)创建实例并打开浏览器
driver = WebChrome()
2)打开网页
driver.get("https://www.baidu.com/")
3)元素定位
driver.find_element_by_xpath('//button[@class="ant-btn ant-btn-primary ant-btn-lg index_searchBtn__c3q_1"]//a')

更多定位方式可以在官方教程学习:selenium-python中文文档 。

4)模拟按键输入
  1. search_box = driver.find_element_by_name('wd')
  2. search_box.send_keys('新榜官网')
5)模拟回车
  1. search_box = driver.find_element_by_name('wd')
  2. search_box.submit()
6)模拟键盘事件
  1. search_box = driver.find_element_by_id('rc_select_0')
  2. # 模拟发送Backspace键
  3. search_box.send_keys(Keys.BACKSPACE)

4. 注意事项与小结​​​​​

4.2 参考脚本的有效性

请同学们不要过多依赖于我们给出的参考脚本,通常情况下,网页的控件信息可能会随着前端的改动而更新,所以我们的教程并不是永久有效的。

最后我邀请你进入我们的【软件测试学习交流群:1007119548】, 大家可以一起探讨交流软件测试,共同学习软件测试技术、面试等软件测试方方面面,还会有免费直播课,收获更多测试技巧,我们一起进阶Python自动化测试/测试开发,走向高薪之路

作为一个软件测试的过来人,我想尽自己最大的努力,帮助每一个伙伴都能顺利找到工作。所以我整理了下面这份资源,现在免费分享给大家,有需要的小伙伴可以关注【公众号:程序员雨果】自提!


本文转载自: https://blog.csdn.net/2201_76100073/article/details/136192198
版权归原作者 程序员江念 所有, 如有侵权,请联系我们删除。

“Airtest-Selenium实操小课:爬取新榜数据”的评论:

还没有评论