随着互联网时代的到来,越来越多的企业热衷于通过大数据比对的方法获取一些有价值的行业信息,进而增加自己的企业竞争力。如何获取或者大面积收集有用的行业信息,是每一个数据公司都要考虑的事情。linux系统下部署selenium做网页爬虫,可以顶几十上百个人工采集数据。linux系统做爬虫方案也被越来越多的企业接受。
下面我就聊一聊怎么把selenium 爬虫程序部署到Linux 服务器上面 。
一、selenium是什么?
Selenium其实就是一个用于Web应用程序测试的一个工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样, 数据抓取用它来爬取一些js动态加载的数据非常方便快捷。
二、具体使用步骤
1、引入库
代码如下
1 from selenium.webdriver import Chrome
2 from selenium.webdriver.chrome.service import Service
3 from selenium.webdriver.chrome.options import Options # 使用无头浏览器
4 from selenium.webdriver import ChromeOptions
5 chrome_options = Options()
6 options = ChromeOptions()
7 options.add_experimental_option(‘excludeSwitches’, [‘enable-automation’]) # =>去掉浏览器正在受到自动测试软件的控制
8 options.add_experimental_option(‘useAutomationExtension’, False)
9 chrome_options.add_argument(“–headless”) # => 为Chrome配置无头模式
10 chrome_options.add_argument(‘–no-sandbox’)
11 chrome_options.add_argument(‘–disable-gpu’)
12 chrome_options.add_argument(‘–disable-dev-shm-usage’)
2、测试代码
代码如下:
1 s = Service(r"/home/driver/chromedriver")
2 driver = Chrome(
3 service=s, options=chrome_options
4 )
5 driver.get(“百度一下,你就知道”)
6 print(diiver.title)
三、部署程序
1、安装chrome
命令如下:
1 yum install https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm
2 检查chrome的版本
3 google-chrome --version
2、安装chromedriver驱动
命令如下:
1 按照对应的chrome版本下载chromedriver驱动
2 地址: https://npm.taobao.org/mirrors/chromedriver
3 目前测试的版本号是: 96.0.4664.45
4 wget https://npm.taobao.org/mirrors/chromedriver/96.0.4664.45/chromedriver_linux64.zip
5 yum install -y unzip zip
6 unzip chromedriver_linux64.zip # 解压zip文件
7 mkdir driver #新建文件夹用来存放驱动
8 chmod 777 driver/chromedriver # 这是权限 这里我分配的是 777
3、运行测试代码
新建test.py文件
1 vi test.py
保存 test.py run 一下看看
如上图结果就说明请求成功
上面就是关于在linux系统下部署selenium爬虫程序简单步骤,欢迎相互交流。
版权归原作者 q56731523 所有, 如有侵权,请联系我们删除。