當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

使用Jsoup实现网络爬虫

發(fā)布時(shí)間：2023/12/10 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了使用Jsoup实现网络爬虫小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、什么是Jsoup？

jsoup是一款Java的HTML解析器、可以通過(guò)URL獲取DOM元素并解析，也可對(duì)HTML文本內(nèi)容進(jìn)行解析，jsoup提供了一套非常簡(jiǎn)單的方法，類似于CSS、JQuery的操作方法對(duì)元素或者是數(shù)據(jù)進(jìn)行操作。

二、Jsoup的特點(diǎn)及作用

從URL，文件或字符串中抓取并解析HTML
使用DOM遍歷或CSS選擇器查找和提取數(shù)據(jù)
處理HTML元素，屬性和文本
根據(jù)安全的白名單清除用戶提交的內(nèi)容，以防止XSS攻擊
輸出整潔的HTML

三、示例

1、解析資源的方式

(1) Jsoup.connect(urlPath).get(); //加載URL (2) Jsoup.parse(""); //從字符串中解析 (3) Jsoup.parse(File in,String charsetName,String baseUri); //從本地文件進(jìn)行解析

該示例使用第一種方式,加載URL

2、添加相關(guān)依賴
2.1 pom.xml中添加依賴

<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.13.1</version> </dependency>

2.2 或者下載Jar包：
jsoup-1.13.1.jar

3、示例代碼

紅色框中是我們想要的部分，每一個(gè)DIV對(duì)應(yīng)一張圖片

public class Test {/*** Jsoup常用對(duì)象：* 1、Document：文檔對(duì)象* 2、Element：元素對(duì)象* 3、Elements：Element元素對(duì)象的集合* @param args*/public static void main(String[] args) {//設(shè)置請(qǐng)求的地址String urlPath = "http://sc.chinaz.com/tupian/fengjingtupian.html";//調(diào)用方法test(urlPath);}public static void test(String urlPath){try { //加載URL中的元素Document document = Jsoup.connect(urlPath).get();//獲取我們需要的內(nèi)容(大概的節(jié)點(diǎn))Elements elements = document.select(".all_wrap #container");//定位到我們想要的標(biāo)簽(詳細(xì)節(jié)點(diǎn))Elements elements2 = elements.select("img");//使用循環(huán)獲取當(dāng)個(gè)的元素for(Element node:elements2){//獲取img標(biāo)簽中src屬性值String href = node.attr("src");//從圖像地址中截取一段文件名出來(lái)String fileName = href.substring(href.lastIndexOf("/")+1);//使用URL單個(gè)訪問URL url = new URL(href);//打開連接URLConnection conn = url.openConnection();//使用文件流讀取網(wǎng)頁(yè)上的內(nèi)容InputStream is = conn.getInputStream();//把獲取到的內(nèi)容，保存在本地中OutputStream os = new FileOutputStream(new File("d:\\images",fileName));//設(shè)置臨時(shí)存儲(chǔ)變量int i = 0 ;while((i = is.read())!=-1){os.write(i);}System.out.println(fileName+" ----------->下載成功！"); } } catch (Exception e) {e.printStackTrace();}}}

總結(jié)

以上是生活随笔為你收集整理的使用Jsoup实现网络爬虫的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。