爬虫 - overfit.cn

php爬虫规则与robots.txt讲解

请注意，robots.txt文件只是一个建议，而不是强制要求，不是所有的爬虫都会遵守robots.txt中的指令。如果你是爬虫程序员，你应该遵守目标网站的robots.txt规则，并尊重网站的隐私和权益。1. 尊重网站的使用条款：在开始爬取之前，请确保你阅读并理解了目标网站的使用条款。在进行爬虫任务

overfit同步小助手 2023-12-22 06:06:10 0 收藏

用Java版本爬虫-WebMagic

我长期关注和实践各种网页数据爬取技术。今天，我想分享我的经验，特别是使用 WebMagic 框架来爬取淘宝网的数据。WebMagic 是一个灵活、强大的Java爬虫框架，适合于数据挖掘和网页内容分析。

overfit同步小助手 2023-12-22 06:05:24 0 收藏

Python爬虫——Python BS4解析库用法详解

Beautiful Soup 简称 BS4（其中 4 表示版本号）是一个 Python 第三方库，它可以从 HTML 或 XML 文档中快速地提取指定的数据。Beautiful Soup 语法简单，使用方便，并且容易理解，因此可以快速地学习并掌握 BS4 的基本语法。

overfit同步小助手 2023-12-22 02:02:20 0 收藏

爬虫 — 自动化爬虫 Selenium

import time # 导入 time 模块，用于时间相关操作from PIL import Image # 导入 Image 模块，用于图像处理from selenium import webdriver # 导入 webdriver 模块，用于自动化测试和控制浏览器from selenium

overfit同步小助手 2023-12-21 00:05:53 0 收藏

GPT-Crawler一键爬虫构建GPTs知识库

选择 assistant 的优势是，我们可以使用 OpenAI 提供的 assistant API，集成到自己的系统中。操作步骤：1、进入自定义 Assistants 页面https://platform.openai.com/assistants2、创建一个 Assistant3、添加上面生成的o

overfit同步小助手 2023-12-19 13:02:22 0 收藏

高效网络爬虫：代理IP的应用与实践

代理IP指的是位于互联网上的一台中间服务器，它充当了爬虫与目标服务器之间的中介角色。通过使用代理IP，爬虫可以隐藏真实的IP地址，使得对目标服务器的请求看起来是来自代理服务器而非爬虫本身。通过使用代理IP，爬虫可以隐藏其真实的IP地址，增强匿名性，防止被目标服务器追踪。代理IP允许爬虫通过多个不同的

overfit同步小助手 2023-12-18 10:02:14 0 收藏

Python 网络爬虫数据的存储（一）：TXT 文本文件存储：

提取到数据后，接下来就是存储数据了，数据的存储形式多种多样，其中最简单的一种就是将数据直接保存为文本文件，例如：txt, json， csv 等，还可以将数据保存到数据库中，如关系型数据库 MySQL，非关系型数据库 MongoDB， Redis等，除了这两种，也可以直接把数据存

overfit同步小助手 2023-12-18 07:02:23 0 收藏

使用ExcelJS快速处理Node.js爬虫数据

ExcelJS是一个用于处理Excel文件的JavaScript库。它可以让你使用JavaScript创建、读取和修改Excel文件。支持xlsx、xlsm、xlsb、xls格式的Excel文件。可以创建和修改工作表、单元格、行和列。可以设置单元格样式、字体、背景颜色等。可以设置工作表的打印选项。可

overfit同步小助手 2023-12-17 03:02:23 0 收藏

【java爬虫】使用selenium获取某交易所公司半年报数据

使用爬虫获取数据还是挺快的，也挺方便的。不过还是要提醒一句，本文分享的内容仅作为学习交流使用，请勿用于任何商业用途！

overfit同步小助手 2023-12-17 01:05:58 0 收藏

爬虫不会写？找ChatGPT不就完了，实战爬取某手办网~~~

合理的利用Ai可以极大的提高我们的生产效率，但你也得会点，在自己有点基础的前提去使用会事半功倍。挑战与创造都是很痛苦的，但是很充实。

overfit同步小助手 2023-12-17 00:02:14 0 收藏

爬虫怎么伪装才更安全

具体来说，需要将爬虫的访问频率、访问路径、访问时间等行为特征进行伪装，以使得目标网站无法通过这些行为特征来识别爬虫的存在。同时，还可以采用一些技术手段来模拟人类的操作行为，例如使用JavaScript代码来模拟人类点击、滚动等操作行为，以使得目标网站无法通过这些行为特征来识别爬虫的存在。在爬虫伪装技

overfit同步小助手 2023-12-16 11:07:15 0 收藏

Python 爬虫实战之爬淘宝商品并做数据分析

是这样的，之前接了一个金主的单子，他想在淘宝开个小鱼零食的网店，想对目前这个市场上的商品做一些分析，本来手动去做统计和分析也是可以的，这些信息都是对外展示的，只是手动比较麻烦，所以想托我去帮个忙。由于源码分了几个源文件，还是比较长的，所以这里就不跟大家一一讲解了，懂爬虫的人看几遍就看懂了，不懂爬虫的

overfit同步小助手 2023-12-16 09:02:12 0 收藏

爬虫 selenium语法（八）

模拟浏览器功能，自动执行网页中的js代码，实现动态加载。path = 谷歌浏览器驱动文件路径url = 要访问的网址：自动化要做的就是模拟鼠标和键盘来操作这些元素，如点击、输入等等。操作这些元素前首先要找到它们，webdriver提供很多定位元素的方法。（1）find_element(By.ID,

overfit同步小助手 2023-12-15 10:05:59 0 收藏

网络爬虫|Selenium——find_element_by_xpath()的几种方法

overfit同步小助手 2023-12-15 10:05:54 0 收藏

26.Python 网络爬虫

学习Python网络爬虫相关基础知识。

overfit同步小助手 2023-12-14 13:01:49 0 收藏

selenium爬虫时添加账密IP代理认证的方法

selenium爬虫IP代理

overfit同步小助手 2023-12-14 00:05:48 0 收藏

Python爬虫技术系列-06selenium完成自动化测试V01

本文基于selenium实现自动测试的Version01版本，网站为学起plus 中的视频自动播放的网站为学起plus 网站

overfit同步小助手 2023-12-13 20:08:21 0 收藏

Python爬虫技术系列-02HTML解析-BS4

关于爬虫的HTML解析案例

overfit同步小助手 2023-12-13 14:02:06 0 收藏

Python selenium无界面headless

Chrome-headless 模式， Google 针对 Chrome 浏览器 59版新增加的一种模式，可以让你不打开UI界面的情况下使用 Chrome 浏览器，所以运行效果与 Chrome 保持完美一致，因此速度快与要打开界面的selenium，其使用方法和selenium一样。

overfit同步小助手 2023-12-13 12:05:56 0 收藏

网络爬虫（Python：Selenium、Scrapy框架；爬虫与反爬虫笔记）

overfit同步小助手 2023-12-13 10:06:13 0 收藏