linux系统下部署selenium做网页爬虫,可以顶几十上百个人工采集数据。
下面我就聊一聊怎么把selenium 程序部署到Linux 服务器上面 。
一、selenium
Selenium是一个用于Web应用程序测试的一个工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样, 数据抓取用它来爬取一些js动态加载的数据非常方便快捷。
二、具体使用步骤
1、引入库
pip3 install selenium # 安装对应的库
代码如下
from selenium.webdriver import Chrome
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options # 使用无头浏览器
from selenium.webdriver import ChromeOptions
chrome_options = Options()
options = ChromeOptions()
options.add_experimental_option(‘excludeSwitches’, [‘enable-automation’]) # =>去掉浏览器正在受到自动测试软件的控制
options.add_experimental_option(‘useAutomationExtension’, False)
chrome_options.add_argument(“–headless”) # => 为Chrome配置无头模式
chrome_options.add_argument(‘–no-sandbox’)
chrome_options.add_argument(‘–disable-gpu’)
chrome_options.add_argument(‘–disable-dev-shm-usage’)
2、测试代码
代码如下:
s = Service(r"/home/driver/chromedriver")
driver = Chrome(service=s, options=chrome_options)
driver.get(“百度一下,你就知道”)
print(diiver.title)
三、部署程序
1、安装chrome
# 使用 yum 安装
yum install https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
# 使用 apt 安装
wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
sudo apt install ./google-chrome-stable_current_amd64.deb
# 若希望 apt 安装后保持更新
sudo apt install google-chrome-stable
# 卸载
sudo apt purge google-chrome-stable
#检查chrome的版本
google-chrome --version
2、安装chromedriver驱动
# https://sites.google.com/chromium.org/driver/downloads 查看 chromedriver 并wget下载
unzipchrome*.zip # 解压
echo $PATH # 查看 PATH
mv chrome* 其中一个路径
3、运行测试代码
新建test.py文件
nano test.py
<<< test.py >>>
from selenium.webdriver import Chrome
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options # 使用无头浏览器
from selenium.webdriver import ChromeOptions
chrome_options = Options()
options = ChromeOptions()
options.add_experimental_option(‘excludeSwitches’, [‘enable-automation’]) # =>去掉浏览器正在受到自动测试软件的控制
options.add_experimental_option(‘useAutomationExtension’, False)
chrome_options.add_argument(“–headless”) # => 为Chrome配置无头模式
chrome_options.add_argument(‘–no-sandbox’)
chrome_options.add_argument(‘–disable-gpu’)
chrome_options.add_argument(‘–disable-dev-shm-usage’)
运行
python3 test.py
标签:
selenium
本文转载自: https://blog.csdn.net/weixin_45278052/article/details/129727278
版权归原作者 fish1968 所有, 如有侵权,请联系我们删除。
版权归原作者 fish1968 所有, 如有侵权,请联系我们删除。