一、Selenium爬取JD商品信息
1.初始化
//将驱动加载到Java的JVM虚拟机中 System.setProperty("webdriver.chrome.driver","D:\\chromedriver.exe"); /************************** 方式一:不打开浏览器 **************************/ //定义浏览器参数 ChromeOptions chromeOptions = new ChromeOptions(); //设置不打开浏览器 chromeOptions.addArguments("--headless"); //初始化驱动 WebDriver driver = new ChromeDriver(chromeOptions); /************************** 方式二:打开浏览器 **************************/ //初始化驱动 WebDriver driver = new ChromeDriver();
2.点开JD网址并指定关键字搜索
driver.get("https://www.jd.com/"); //输入关键字衣服 driver.findElement(By.id("key")).sendKeys("衣服"); //点击搜索按钮 driver.findElement(By.cssSelector("button.button")).click();
代码案例:
package demo;
import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;
public class Demo2 {
public static void main(String[] args) {
//将驱动加载到Java的JVM虚拟机中
System.setProperty("webdriver.chrome.driver","E:\\selenium\\chromedriver.exe");
/************************** 方式一:不打开浏览器 **************************/
//定义浏览器参数
// ChromeOptions chromeOptions = new ChromeOptions();
//设置不打开浏览器
// chromeOptions.addArguments("--headless");
//初始化驱动
// WebDriver driver = new ChromeDriver(chromeOptions);
/************************** 方式二:打开浏览器 **************************/
//初始化驱动
WebDriver driver = new ChromeDriver();
//设置爬取网站
driver.get("https://www.jd.com/");
//获取JD网站首页中的查询条件输入框
WebElement key = driver.findElement(By.id("key"));
key.sendKeys("衣服");
//获取JD网站首页的查询按钮并完成点击事件 #search > div > div.form > button
WebElement button = driver.findElement(By.cssSelector("button.button"));
button.click();
}
}

3.设定睡眠时间(可根据网络速度实际调整)
Thread.sleep(i * 1000);
4.查找商品列表并获取相关信息
//*[@id="J_goodsList"]/ul/li 商品信息:className="p-name" 商品价格:className="p-price"
代码案例:
package demo;
import org.openqa.selenium.By;
import org.openqa.selenium.JavascriptExecutor;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;
import java.util.List;
public class Demo2 {
public static void main(String[] args) {
//将驱动加载到Java的JVM虚拟机中
System.setProperty("webdriver.chrome.driver","E:\\selenium\\chromedriver.exe");
/************************** 方式一:不打开浏览器 **************************/
//定义浏览器参数
// ChromeOptions chromeOptions = new ChromeOptions();
//设置不打开浏览器
// chromeOptions.addArguments("--headless");
//初始化驱动
// WebDriver driver = new ChromeDriver(chromeOptions);
/************************** 方式二:打开浏览器 **************************/
//初始化驱动
WebDriver driver = new ChromeDriver();
//设置爬取网站
driver.get("https://www.jd.com/");
//获取JD网站首页中的查询条件输入框
WebElement key = driver.findElement(By.id("key"));
key.sendKeys("衣服");
//获取JD网站首页的查询按钮并完成点击事件 #search > div > div.form > button
WebElement button = driver.findElement(By.cssSelector("button.button"));
button.click();
sleep(3);
//设置滚动条移动到最下面
((JavascriptExecutor) driver).executeScript("window.scrollTo(0,document.body.scrollHeight)");
sleep(2);
*[@id="J_goodsList"]/ul/li[1]
//获取查询页面中的所有商品li标签
List<WebElement> elements = driver.findElements(By.xpath("//*[@id=\"J_goodsList\"]/ul/li"));
for (WebElement element:elements){
String price = element.findElement(By.className("p-price")).getText();
String name = element.findElement(By.className("p-name")).getText();
System.out.println("【"+price+"】 - "+name);
}
}
public static void sleep(int num){
try {
Thread.sleep(num*1000L);
} catch (InterruptedException e) {
e.printStackTrace();
}
}
}
运行结果:

二、Selenium爬取图片
注:1-3步与上述获取文本信息一致!!!
1.保存图片
URL url=new URL(img); //创建输入流 InputStream is=new FileInputStream(url.openStream()); //创建输出流 OutputStream out=new FileOutputStream(File(路径));//执行js,滚动条下拉到最底
((JavascriptExecutor) driver).executeScript("window.scrollTo(0,document.body.scrollHeight)");
代码案例:
package demo;
import org.openqa.selenium.By;
import org.openqa.selenium.JavascriptExecutor;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
import java.io.*;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.List;
import java.util.UUID;
public class Demo3 {
//定义Driver驱动
public static WebDriver driver=null;
//定义List集合,用于存储爬取数据中的图片路径
public static List<String> imgs=new ArrayList<>();
static {
//将驱动加载到Java的JVM虚拟机中
System.setProperty("webdriver.chrome.driver","E:\\selenium\\chromedriver.exe");
//初始化驱动
driver=new ChromeDriver();
}
public static void sleep(int num){
try {
Thread.sleep(num*1000L);
} catch (InterruptedException e) {
e.printStackTrace();
}
}
public static void getImg(){
//设置爬取网站
driver.get("http://www.gaoimg.com/");
sleep(3);
//设置滚动条移动到最下面
((JavascriptExecutor) driver).executeScript("window.scrollTo(0,document.body.scrollHeight)");
sleep(2);
//定义爬取的节点
///html/body/div[5]/div[2]/div/a/img
List<WebElement> elements = driver.findElements(By.xpath("/html/body/div[5]/div[2]/div/a/img"));
for (WebElement element:elements){
String src = element.getAttribute("src");
if(null!=src)
imgs.add(src);
}
}
public static void saveImg(){
try {
for (String img:imgs){
//创建URL对象,并设置图片的下载路径
URL url=new URL(img);
//打开图片数据输入流
InputStream is = new DataInputStream(url.openStream());
//定义图片存放路径
String path="E:\\selenium\\img\\"+ UUID.randomUUID().toString().replace("-","")+".jpg";
//定义图片输出流
OutputStream out=new FileOutputStream(new File(path));
//定义读取长度
int len=0;
//定义byte数组每次读取多少字节
byte[] bytes=new byte[1024];
//循环读取
while ((len=is.read(bytes))!=-1){
//写流
out.write(bytes,0,len);
}
//关闭流
is.close();
out.close();
// Thread.sleep(500);
}
}catch (Exception e){
e.printStackTrace();
}
}
public static void main(String[] args) {
try {
//爬取图片路径
getImg();
//循环打印图片路径
for (String img : imgs) {
System.out.println(img);
}
//保存图片
saveImg();
} catch (Exception e) {
e.printStackTrace();
} finally {
//一定要记得下载完图片之后释放资源
if(null!=driver)
driver.quit();
}
}
}
运行结果:


本文转载自: https://blog.csdn.net/ty0714/article/details/124832822
版权归原作者 -唐醋小排骨 所有, 如有侵权,请联系我们删除。
版权归原作者 -唐醋小排骨 所有, 如有侵权,请联系我们删除。