0


Selenium --- Selenium之实战案例

一、Selenium爬取JD商品信息

1.初始化

 //将驱动加载到Java的JVM虚拟机中
  System.setProperty("webdriver.chrome.driver","D:\\chromedriver.exe");
  /************************** 方式一:不打开浏览器 **************************/
  //定义浏览器参数
  ChromeOptions chromeOptions = new ChromeOptions();
  //设置不打开浏览器
  chromeOptions.addArguments("--headless");
  //初始化驱动
  WebDriver driver = new ChromeDriver(chromeOptions);

 /************************** 方式二:打开浏览器 **************************/
  //初始化驱动
  WebDriver driver = new ChromeDriver();

2.点开JD网址并指定关键字搜索

 driver.get("https://www.jd.com/");
  //输入关键字衣服
  driver.findElement(By.id("key")).sendKeys("衣服");
  //点击搜索按钮
  driver.findElement(By.cssSelector("button.button")).click();

代码案例:

package demo;

import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;

public class Demo2 {
    public static void main(String[] args) {
        //将驱动加载到Java的JVM虚拟机中
        System.setProperty("webdriver.chrome.driver","E:\\selenium\\chromedriver.exe");
        /************************** 方式一:不打开浏览器 **************************/
        //定义浏览器参数
//        ChromeOptions chromeOptions = new ChromeOptions();
        //设置不打开浏览器
//        chromeOptions.addArguments("--headless");
        //初始化驱动
//        WebDriver driver = new ChromeDriver(chromeOptions);

        /************************** 方式二:打开浏览器 **************************/
        //初始化驱动
        WebDriver driver = new ChromeDriver();
        //设置爬取网站
        driver.get("https://www.jd.com/");

        //获取JD网站首页中的查询条件输入框
        WebElement key = driver.findElement(By.id("key"));
        key.sendKeys("衣服");
        //获取JD网站首页的查询按钮并完成点击事件  #search > div > div.form > button
        WebElement button = driver.findElement(By.cssSelector("button.button"));
        button.click();

    }
}

3.设定睡眠时间(可根据网络速度实际调整)

 Thread.sleep(i * 1000);

4.查找商品列表并获取相关信息

 //*[@id="J_goodsList"]/ul/li

 商品信息:className="p-name"
  商品价格:className="p-price"

代码案例:

package demo;

import org.openqa.selenium.By;
import org.openqa.selenium.JavascriptExecutor;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;

import java.util.List;

public class Demo2 {
    public static void main(String[] args) {
        //将驱动加载到Java的JVM虚拟机中
        System.setProperty("webdriver.chrome.driver","E:\\selenium\\chromedriver.exe");
        /************************** 方式一:不打开浏览器 **************************/
        //定义浏览器参数
//        ChromeOptions chromeOptions = new ChromeOptions();
        //设置不打开浏览器
//        chromeOptions.addArguments("--headless");
        //初始化驱动
//        WebDriver driver = new ChromeDriver(chromeOptions);

        /************************** 方式二:打开浏览器 **************************/
        //初始化驱动
        WebDriver driver = new ChromeDriver();
        //设置爬取网站
        driver.get("https://www.jd.com/");

        //获取JD网站首页中的查询条件输入框
        WebElement key = driver.findElement(By.id("key"));
        key.sendKeys("衣服");
        //获取JD网站首页的查询按钮并完成点击事件  #search > div > div.form > button
        WebElement button = driver.findElement(By.cssSelector("button.button"));
        button.click();

        sleep(3);
        //设置滚动条移动到最下面
        ((JavascriptExecutor) driver).executeScript("window.scrollTo(0,document.body.scrollHeight)");
        sleep(2);

        *[@id="J_goodsList"]/ul/li[1]
        //获取查询页面中的所有商品li标签
        List<WebElement> elements = driver.findElements(By.xpath("//*[@id=\"J_goodsList\"]/ul/li"));
        for (WebElement element:elements){
            String price = element.findElement(By.className("p-price")).getText();
            String name = element.findElement(By.className("p-name")).getText();
            System.out.println("【"+price+"】 - "+name);
        }
    }

    public static void sleep(int num){
        try {
            Thread.sleep(num*1000L);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }
}

运行结果:

二、Selenium爬取图片

 注:1-3步与上述获取文本信息一致!!!

1.保存图片

 URL url=new URL(img);
  //创建输入流
  InputStream is=new FileInputStream(url.openStream());
  //创建输出流
  OutputStream out=new FileOutputStream(File(路径));

//执行js,滚动条下拉到最底
((JavascriptExecutor) driver).executeScript("window.scrollTo(0,document.body.scrollHeight)");

代码案例:

package demo;

import org.openqa.selenium.By;
import org.openqa.selenium.JavascriptExecutor;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;

import java.io.*;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.List;
import java.util.UUID;

public class Demo3 {

    //定义Driver驱动
    public static WebDriver driver=null;

    //定义List集合,用于存储爬取数据中的图片路径
    public static List<String> imgs=new ArrayList<>();

    static {
        //将驱动加载到Java的JVM虚拟机中
        System.setProperty("webdriver.chrome.driver","E:\\selenium\\chromedriver.exe");
        //初始化驱动
        driver=new ChromeDriver();
    }

    public static void sleep(int num){
        try {
            Thread.sleep(num*1000L);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }

    public static void getImg(){
        //设置爬取网站
        driver.get("http://www.gaoimg.com/");

        sleep(3);
        //设置滚动条移动到最下面
        ((JavascriptExecutor) driver).executeScript("window.scrollTo(0,document.body.scrollHeight)");
        sleep(2);

        //定义爬取的节点
        ///html/body/div[5]/div[2]/div/a/img
        List<WebElement> elements = driver.findElements(By.xpath("/html/body/div[5]/div[2]/div/a/img"));
        for (WebElement element:elements){
            String src = element.getAttribute("src");
            if(null!=src)
                imgs.add(src);
        }
    }

    public static void saveImg(){
        try {
            for (String img:imgs){
                //创建URL对象,并设置图片的下载路径
                URL url=new URL(img);
                //打开图片数据输入流
                InputStream is = new DataInputStream(url.openStream());
                //定义图片存放路径
                String path="E:\\selenium\\img\\"+ UUID.randomUUID().toString().replace("-","")+".jpg";
                //定义图片输出流
                OutputStream out=new FileOutputStream(new File(path));
                //定义读取长度
                int len=0;
                //定义byte数组每次读取多少字节
                byte[] bytes=new byte[1024];
                //循环读取
                while ((len=is.read(bytes))!=-1){
                    //写流
                    out.write(bytes,0,len);
                }
                //关闭流
                is.close();
                out.close();

//                Thread.sleep(500);
            }
        }catch (Exception e){
            e.printStackTrace();
        }
    }

    public static void main(String[] args) {
        try {
            //爬取图片路径
            getImg();
            //循环打印图片路径
            for (String img : imgs) {
                System.out.println(img);
            }
            //保存图片
            saveImg();
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            //一定要记得下载完图片之后释放资源
            if(null!=driver)
                driver.quit();
        }
    }
}

运行结果:


本文转载自: https://blog.csdn.net/ty0714/article/details/124832822
版权归原作者 -唐醋小排骨 所有, 如有侵权,请联系我们删除。

“Selenium --- Selenium之实战案例”的评论:

还没有评论