當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

webdriver 爬虫 java_java爬虫通过selenium+WebDriver遍历页面链接报错

發(fā)布時(shí)間：2023/12/10 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了 webdriver 爬虫 java_java爬虫通过selenium+WebDriver遍历页面链接报错小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

背景

由于要爬取的頁面，每個(gè)鏈接的請(qǐng)求都是點(diǎn)擊之后js動(dòng)態(tài)發(fā)起的，目標(biāo)數(shù)據(jù)也多是js動(dòng)態(tài)生成的，所以使用selenium工具+webdriver(調(diào)試用的是chrome，具體使用準(zhǔn)備用phantomjs).

模擬登錄之后，模擬查詢之后，得到如下列表

可以看到鏈接是不能直接拿到的。

接下去步驟是這樣的：

得到鏈接的集合

遍歷集合，點(diǎn)擊鏈接，得到對(duì)應(yīng)的詳情頁面

通過頁面句柄轉(zhuǎn)到詳情頁面，拿到目標(biāo)數(shù)據(jù)，再轉(zhuǎn)回父頁面

如上繼續(xù)遍歷

問題

按照如上邏輯，在執(zhí)行到遍歷步驟的時(shí)候，在第二次時(shí)報(bào)錯(cuò)了。

第一種報(bào)錯(cuò)：

org.openqa.selenium.StaleElementReferenceException: stale element

reference: element is not attached to the page document

我的代碼：

// 獲取查詢按鈕

WebElement queryBtn = driver.findElement(By.ByXPath.xpath("//*[@id=\"mainContent\"]/form/div[3]/div[13]/button[1]"));

// jse.executeScript("arguments[0].scrollIntoView()", queryBtn);

scrollToElementAndClick(queryBtn);

Thread.sleep(500); // 等待加載

driver.manage().window().maximize();

driver.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);

driver.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);

int pageIndex = Integer.parseInt(driver.findElement(By.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[1]/span/font[3]")).getText());

int pageSize = Integer.parseInt(driver.findElement(By.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[1]/span/font[2]")).getText());

// Actions actions = new Actions(driver);

while (pageIndex <= pageSize) {

pageIndex++;

WebElement tbody = driver.findElement(By.ByXPath.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tbody"));

List links = tbody.findElements(By.cssSelector("a[class=ng-binding]"));

for (WebElement link : links) {

WebDriver window;

System.out.println("-------------- voucherNo: "+ link.getText());

scrollToElementAndClick(link);

// jse.executeScript("arguments[0].scrollIntoView()", link);

// Thread.sleep(1000);

// actions.moveToElement(link).click().perform();

currentWindow = driver.getWindowHandle();

//get all windows

Set handles = driver.getWindowHandles();

for (String s : handles) {

//current page is don't close

if (s.equals(currentWindow) || s.equals(parentWindow))

continue;

else {

window = driver.switchTo().window(s);

window.manage().window().maximize();

window.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);

window.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);

//get all tables

String pageSource = window.getPageSource();

String jsonArray = parseDTO(pageSource);

System.out.println(jsonArray);

//close the table window

window.close();

}

//swich to current window

driver.switchTo().window(currentWindow);

}

// click next page

if (pageIndex <= pageSize) {

WebElement nextPage = driver.findElement(By.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[3]/a"));

scrollToElementAndClick(nextPage);

//set next page to current page

driver = driver.switchTo().window(driver.getWindowHandle());

driver.manage().window().maximize();

driver.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);

driver.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);

}

我在stackoverflow上面查到過類似問題，也去官網(wǎng)上面看到了對(duì)應(yīng)報(bào)錯(cuò)的解釋：原因應(yīng)該是我在跳轉(zhuǎn)到子頁面的時(shí)候，父頁面進(jìn)行的刷新，雖然在ui上面還能到那些鏈接，但是集合里面的鏈接是原先定義的，和遍歷一次之后回來的父頁面對(duì)應(yīng)不上了。(我是這么理解的，如果我理解錯(cuò)了，請(qǐng)大神指出)。

然后我就按照官方的建議，每次頁面去頁面上拿鏈接而不是從原先定義的鏈接集合中拿。

先說明：每個(gè)鏈接的xpath都是有規(guī)律的，如：

//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[1]/td[2]/a

//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[2]/td[2]/a

//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[3]/td[2]/a

//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[%s]/td[2]/a

這是我第二次的代碼：

while (pageIndex <= pageSize) {

pageIndex++;

WebElement tbody = driver.findElement(By.ByXPath.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tbody"));

List links = tbody.findElements(By.cssSelector("a[class=ng-binding]"));

int size = links.size();

for (int i = 1; i <= size; i++) {

String href = String.format("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tbody/tr[%s]/td[2]/a", i);

WebElement link = driver.findElement(By.xpath(href));

WebDriver window;

System.out.println("-------------- voucherNo: "+ link.getText());

scrollToElementAndClick(link);

currentWindow = driver.getWindowHandle();

//get all windows

Set handles = driver.getWindowHandles();

for (String s : handles) {

//current page is don't close

if (s.equals(currentWindow) || s.equals(parentWindow))

continue;

else {

window = driver.switchTo().window(s);

window.manage().window().maximize();

window.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);

window.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);

//get all tables

String pageSource = window.getPageSource();

String jsonArray = parseDTO(pageSource);

System.out.println(jsonArray);

//close the table window

window.close();

}

//swich to current window

driver.switchTo().window(currentWindow);

}

// click next page

if (pageIndex <= pageSize) {

WebElement nextPage = driver.findElement(By.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[3]/a"));

scrollToElementAndClick(nextPage);

//set next page to current page

driver = driver.switchTo().window(driver.getWindowHandle());

driver.manage().window().maximize();

driver.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);

driver.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);

}

這次報(bào)了第二種錯(cuò)誤：

Caused by: org.openqa.selenium.NoSuchElementException: {"errorMessage":"Unable to find element with xpath

Emm...試了很多種辦法都沒有用，希望有大神能救救我

萬分感謝！！！

總結(jié)

以上是生活随笔為你收集整理的webdriver 爬虫 java_java爬虫通过selenium+WebDriver遍历页面链接报错的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：罗永浩要回来了！近2000万粉的抖音账号
下一篇：实现两个pawn的切换