爬虫 - overfit.cn

Python爬虫学习之selenium库

button = browser.find_element_by_link_text('地图')print(input.get_attribute('class')) #里面放属性名字。A = browser.find_element_by_link_text('新闻')#根据xpath语句来获

overfit同步小助手 2024-02-07 08:05:57 0 收藏

带Cookies信息操作页面（Selenium）

主要介绍如何获取登入信息，携带登入信息对网页进行一些自动化操作

overfit同步小助手 2024-02-07 00:05:20 0 收藏

【Selenium】谷歌 chromedriver 114之后的版本下载方法

翻译：从 M115 开始，每个发布渠道（稳定版、测试版、开发版、金丝雀版）的 l 测试版 Chrome + ChromeDriver 版本可在 Chrome for Test 可用性仪表板上找到。对于自动版本下载，可以使用方便的JSON端点。

overfit同步小助手 2024-02-06 10:05:50 0 收藏

Python爬虫---selenium基本使用（支持无界面浏览器PhantomJS和Chrome handless）

使用urllib.request.urlopen()模拟浏览器有时候获取不到数据,所以使用selenium(1) selenium是一个用于web应用程序测试的工具(2) selenium 测试直接运行在浏览器中，就像真正的用户在操作一样(3) 支持通过各种driver (FirfoxDriver,

overfit同步小助手 2024-02-04 19:05:41 0 收藏

十一、常用API——爬虫

Java自从95年问世以来，经历了很多版本，目前企业中用的最多的是Java8和Java11，因为这两个是长期支持版本，下一个长期支持版本是Java17，相信在未来不久Java17也会逐渐登上历史舞台。Java自从95年问世以来，经历了很多版本，目前企业中用的最多的是Java8和Java11，因

overfit同步小助手 2024-02-04 15:02:18 0 收藏

Python网络爬虫实战——实验8：Python爬虫项目部署与kafka消息队实战

根据环境变量 ‘django_env’ 的值选择 Kafka 服务器地址，如果 ‘django_env’ 的值为’production’，则使用 192.168.0.151:9092否则，使用 192.168.0.228:9092。连接成功后，点击Mappings配置路径映射，local path

overfit同步小助手 2024-02-04 10:03:44 0 收藏

用selenium爬取知网信息（五）

:nth-last-of-type(n) p:nth-last-of-type(2) 选择属于其父标签元素的倒数第二个p标签的每个p标签元素（所有p标签对应的父标签的倒数第二个p标签元素，也就是这个和p标签平级）#:nth-of-type(n) p:nth-of-type(2) 选择

overfit同步小助手 2024-02-03 15:05:20 0 收藏

爬虫笔记（三）：实战qq登录

最后的结果就变成这个样了（叹气）

overfit同步小助手 2024-02-03 11:04:43 0 收藏

爬虫实战-手把手教你爬豆瓣电影 | 附详细源码和讲解

目前为止，你应该已经了解爬虫的三个基本小节：xiaqo.com正文明确需求我们今天要爬的数据是豆瓣电影Top250，是的，只有250条数据，你没猜错。输入网址我们可以看到网页长这样：编辑编辑`250条数据`清清楚楚，没有问题。可以看到，这个页面其实已经包含了影片的主要内容：影片名、排序、编剧、主

overfit同步小助手 2024-02-02 04:02:27 0 收藏

Python网络爬虫实战——实验5：Python爬虫之selenium动态数据采集实战

动态加载网页是指在页面初次加载完成后，通过JavaScript等前端技术，根据用户的交互或其他触发条件，向服务器请求额外的数据并将其加载到已有页面中，而无需刷新整个页面。进入主页面后，摁F12打开开发者工具，点击Doc输入关键字学，点击检索按钮，可以出现如上图4步骤所示的接口，preview中可以查

overfit同步小助手 2024-02-01 21:05:55 0 收藏

【爬虫+数据清洗+可视化分析】用Python分析哔哩哔哩“狂飙”的评论数据

马哥原创：用python分析哔哩哔哩关于"狂飙"的上千条评论数据。一、爬虫requests 发送请求json 解析接口数据pandas 保存csv文件二、可视化分析IP属地分析-柱形图评论时间分析-折线图点赞数分布-直方图评论内容-情感分布饼图评论内容-词云图并分析得出一系列相应结论。

overfit同步小助手 2024-02-01 15:02:31 0 收藏

selenium cv2 破解豆瓣验证码

cv2.findContours()函数接受的参数为二值图，即黑白的（不是灰度图），所以读取的图像要先转成灰度的，再转成二值图，此处canny已经是二值图。ActionChains(driver).drag_and_drop_by_offset(slider,result,0).perform()#

overfit同步小助手 2024-01-31 17:05:50 0 收藏

python爬虫-seleniumwire模拟浏览器反爬获取参数

在进行数据爬取时，有时候遇到一些比较复杂的js逆向。在不考虑访问效率的情况下，使用selenium模拟浏览器的方法可以大大减少反反爬逆向工作量。但普通的selenium库是无法获取到类似set-cookie等参数的，这时候需要用到selenium-wire库。其用法类似selenium以上就是使用p

overfit同步小助手 2024-01-30 21:05:38 0 收藏

AI+爬虫爬虫宝

有时候人操作说不定还搞错了也未可知。就算人出色的完成了，你的领导告诉你，自行车没什么用，我要山地车。我们写一个自动化程序，帮我们爬取我们要的东西，可能自行车改为山地车就完事了，你也可以配置，但是如果今天爬亚马逊，明天不爬亚马逊了，明天要一个 Bestbuy 上的电脑产品，说业务后天就要，

overfit同步小助手 2024-01-30 16:01:17 0 收藏

爬虫笔记（一）：实战登录古诗文网站

需求：登录古诗文网站，账号＋密码＋图形验证码：自己注册一个账号＋密码哈：图形验证码，需要一个打码平台（充钱，超能力power！）或者tesseract开源包，这两个用于自动识别图形验证码哈~我用的是超级鹰，充了1块，有1000积分，一次10积分，初学者福音hhhhh在软件ID随便填一下软件名称和说明

overfit同步小助手 2024-01-29 15:02:14 0 收藏

Python爬虫之selenium

我们看到页面有文本框，我们实现这样的功能，我们自动获取文本框，完成文本框的输入，点击发送。由于打开页面比较慢，使用无界面浏览器：phantomjs或者。获取元素属性get_attribute('class')可看到浏览器受到自动测试软件的控制。selenium模拟浏览器行为。1.首先进行下载浏览器的

overfit同步小助手 2024-01-29 11:05:59 0 收藏

爬虫 + 自动化之利器---selenium全面解析与实战项目

什么是seleniumSelenium是一个用于Web应用程序测试的工具。只要在测试用例中把预期的用户行为与结果都描述出来，我们就得到了一个可以自动化运行的功能测试套件。Selenium测试套件直接运行在浏览器中，就像真正的用户在操作浏览器一样。Selenium也是一款同样使用Apache Lice

overfit同步小助手 2024-01-29 09:05:51 0 收藏

基于selenium的简单爬虫示例

现在进入了大数据时代，很多的需求都需要数据支撑。不从市场需求的角度来说，单单就技术这一方面举例，ai模型的训练就需要数据。所以说，爬虫。

overfit同步小助手 2024-01-29 02:05:19 0 收藏

爬虫的基本原理

爬虫的原理、方式、以及适用范围

overfit同步小助手 2024-01-28 23:02:22 0 收藏

#Python实战：selenium模拟浏览器运行，获取软科网站2023中国大学排名

在爬取一些加密的网页时，可以使用selenium模拟浏览器运行，再从网页中提取想要的数据。

overfit同步小助手 2024-01-28 20:05:39 0 收藏