爬虫 - overfit.cn

代理IP安全问题：在国外使用代理IP是否安全

在互联网时代，随着信息的高速传播和全球化的发展，跨国互联网服务已经成为一种常见的现象。然而，由于各国家法律法规的限制和信息审查的需要，某些国家的互联网用户无法直接访问特定的网站或获取特定的信息。为了解决这个问题，使用代理服务器成为一种常见的方法。代理服务器可以帮助用户隐藏真实的IP地址，并通过从其他

overfit同步小助手 2024-03-11 21:06:54 0 收藏

爬虫：绕过5秒盾Cloudflare和DDoS-GUARD

爬虫，绕过免费和付费版5秒盾Cloudflare的方法。

overfit同步小助手 2024-03-11 07:02:26 0 收藏

Python爬虫——Selenium

折磨到顶点的折磨，selenium，phantomjs，Chrome handless

overfit同步小助手 2024-03-11 01:05:56 0 收藏

selenium+beautifulsoup数据爬取

值得注意的是直接获取第一个下拉框的数据（也就是https://yz.chsi.com.cn/zsml/pages/getMl.jsp），是没有专业硕士这一项的，所以我们这里手动加入并把它插入到result的第一项（因为在下拉项的第一项也是专业硕士）。* 打开页面的检查页面，可以看到很多个jsp的请求

overfit同步小助手 2024-03-10 19:05:42 0 收藏

自动化测试介绍、selenium用法（自动化测试框架+爬虫可用)

程序测试程序、代码代替思维、脚本代替人工核心：质量和效率作用：降低成本、节省人力时间、推动CI和DevOps、准确性和可靠性、模拟人工难以实现的手段、快速持续迭代发布能力、衡量产品的质量、提升测试效率、提高测试覆盖率。

overfit同步小助手 2024-03-10 08:05:59 0 收藏

爬虫实战——巴黎圣母院新闻【内附超详细教程，你上你也行】

由于一个版面对应一篇文章，所以版面url 、更新时间、标题和文章是一样的，并且按照设计版面id和文章id的区别只是差了个01，所以可以传递版面url、版面id、更新时间和标题四个参数到解析文章的函数里面。我们发现有两种方式查看所有新闻，一种是按照类别，一种是按照时间，经过进一步的观察我们发现按照时间

overfit同步小助手 2024-03-09 11:01:57 0 收藏

爬虫(四)

本章主要介绍图片验证码，以及打码平台

overfit同步小助手 2024-03-08 14:04:02 0 收藏

Python爬虫之爬取并下载哔哩哔哩视频

它可以爬取并下载视频文件和音频文件！亲自使用过，太好用了。

overfit同步小助手 2024-03-08 14:03:46 0 收藏

Python Selenium 爬虫淘宝案例

本文基于Selenium + MongoDB + ChromeDriver + Pyquery实现爬虫淘宝案例。

overfit同步小助手 2024-03-08 05:05:49 0 收藏

小红书关键词爬虫

小红书代码爬虫，关键词，标题，评论等信息

overfit同步小助手 2024-03-07 15:02:34 0 收藏

selenium的使用

selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器官网：http://selenium-p

overfit同步小助手 2024-03-07 09:06:08 0 收藏

Python爬虫项目实战案例-批量下载网易云榜单音乐保存至本地

也可以在Win平台: “以管理员身份运行”cmd，执行pip list，查看到以下截图显示requests，即表示安装成功。如果不行的话，也可以通过pycharm中的提示，安装install request packages。具体来说，它匹配的是一个。希望在这里，我们能一起探索IT世界的奥妙，提升我

overfit同步小助手 2024-03-07 09:04:28 0 收藏

爬虫实战——伯克利新闻【内附超详细教程，你上你也行】

由于一个版面对应一篇文章，所以版面url 、更新时间、标题和文章是一样的，并且按照设计版面id和文章id的区别只是差了个01，所以可以传递版面url、版面id、更新时间和标题四个参数到解析文章的函数里面。由于该新闻只有一个模块，所以直接请求该模块地址即可获取该模块的所有信息，但是为了兼容多模块的新闻

overfit同步小助手 2024-03-07 09:01:54 0 收藏

python爬虫之selenium知识点记录

selenium本身是一个自动化测试工具。它可以让python代码调用浏览器。并获取到浏览器中加载的各种资源。我们可以利用selenium提供的各项功能。帮助我们完成数据的抓取。

overfit同步小助手 2024-03-06 10:05:43 0 收藏

爬虫实战——麻省理工学院新闻

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。【[宝藏入口](https://www.captainbed.cn/dl)】。

overfit同步小助手 2024-03-05 13:01:59 0 收藏

使用Hadoop和Nutch构建音频爬虫：实现数据收集与分析

随着音频内容在互联网上的广泛应用，如音乐、播客、语音识别等，越来越多的企业和研究机构希望能够获取和分析这些数据，以发现有价值的信息和洞察。而传统的手动采集方式效率低下，无法满足大规模数据处理的需求，因此需要利用自动化爬虫技术来实现音频数据的快速采集与处理。Hadoop：Hadoop是一个开源的分布式

overfit同步小助手 2024-03-05 12:03:58 0 收藏

Python 爬虫代码，爬取淘宝网站上商品的评论

另外，需要注意的是，爬取淘宝网站上的数据需要模拟浏览器发送请求，否则会被淘宝网站的反爬虫机制检测到并封禁。以上代码中，我已经添加了。上面的代码会爬取商品ID为1234567890的商品的评论，并输出评论内容。参数，模拟了浏览器发送的请求头，这样就可以避免被封禁。参数换成你要爬取的商品ID即可。

overfit同步小助手 2024-03-04 19:04:28 0 收藏

【Python之Selenium】find_element查找元素的八种方式

使用XPATH定位元素，防止元素重复，推荐使用full Xpath定位。使用tar标签定位元素，可将全部div信息获取。网页中若有重复的标签名，不推荐用NAME定位。可通过部分文本定位元素，不需要全部文本信息。可通过完整的文本定位元素。

overfit同步小助手 2024-03-03 07:05:49 0 收藏

爬虫知识--01

爬虫介绍、requests模块介绍、requests发送get请求、携带请求头、发送post请求携带cookie、post请求携带参数、模拟登录、响应对象、ssl 认证、使用代理、超时设置，异常处理，上传文件

overfit同步小助手 2024-03-01 20:02:22 0 收藏

大数据招聘信息数据分析：基于Python网络爬虫的IT招聘就业岗位数据分析可视化推荐系统

本项目旨在开发一个基于Python网络爬虫技术的IT招聘就业岗位可视化分析推荐系统。数据来源于Boss直聘招聘网站，采集到的各种岗位数据信息量合计在70万左右，数据精确真实可靠，本项目主要利用selenium、requests爬虫以及BeautifulSoup、numpy和Pandas等库进行数据的

overfit同步小助手 2024-03-01 09:03:21 0 收藏