當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

java用jsoup爬网页数据_java使用jsoup爬取网页数据

發布時間：2025/3/19 编程问答 43 豆豆

生活随笔收集整理的這篇文章主要介紹了 java用jsoup爬网页数据_java使用jsoup爬取网页数据小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、導入依賴

org.jsoup

jsoup

1.11.3

1.解析一個html字符串

示例如下：String?html?=?"

這是P元素的內容

";Document?document?=?Jsoup.parse(html);

使用上面的方法，就可以將html字符串，轉換成Document對象，一旦有了Document對象，我們就可以使用其中適當的方法根據需求處理問題。我們可以看到這里轉換的html片段并不是一個合法的html片段，里面的div標簽沒有閉合。這對于Jsoup來說不是問題，它可以很好的處理這類問題。

2.根據一個URL地址加載Document對象

示例：

Document document = Jsoup.connect("http://www.baidu.com").get();

String title = document.title();

String text = document.text();

connect(String url)方法創建一個新的Connection, 和get()取得和解析一個HTML文件。如果從該URL獲取HTML時發生錯誤，便會拋出 IOException，應適當處理。

Connection 接口還提供一個方法鏈來解決特殊請求，具體如下：

Document doc = Jsoup.connect("http://test.com").data("query", "Java").userAgent("Mozilla").cookie("auth", "token").timeout(3000).post();

可以向鏈接地址post參數，設置userAgent，cookie，timeout等，而且這里是采用的鏈接操作很方便connect(String url)?方法創建一個新的?Connection, 和?get()?取得和解析一個HTML文件。如果從該URL獲取HTML時發生錯誤，便會拋出 IOException，應適當處理。

Connection 接口還提供一個方法鏈來解決特殊請求，具體如下：

4.根據文件加載document

有時候我們要處理的html內容，可能是存在硬盤上的某個文件里面，我們需要從中提取或者解析某些內容出來，我們可以通過Jsoup來這樣處理。示例代碼如下：

File input = new File("d:/input.html");

Document doc = Jsoup.parse(input, "UTF-8", "http://test.com/");

三、數據抽取看到這里可能有一個疑問，第一個參數是文件，第二是編碼，第三個是什么呢?第三個參數是baseUrl，使用他我們可以方便的處理相對路徑問題，如果不需要可以不傳，這是一個多態方法，在前面的三個部分里面，都可以再加一個這樣的baseUrl，后面會詳細講述。

1.使用Dom方法遍歷文檔

通過第二章我們可以獲取一個document的對象，我們可以通過這個對象來遍歷文檔，如：

Document doc = Jsoup.parse(input, "UTF-8", "http://test.com/");

Element content = doc.getElementById("content");

Elements links = content.getElementsByTag("a");

for(Element link : links) {

String linkHref = link.attr("href");

String linkText = link.text();

}

查找元素這里我們可以方便的使用Doument對象的方法來獲取內容。常用方法如下：

元素數據attributes()獲取所有屬性

id(), className() and classNames()

text()獲取文本內容text(String value) 設置文本內容

html()獲取元素內HTMLhtml(String value)設置元素內的HTML內容

outerHtml()獲取元素外HTML內容

data()獲取數據內容(例如：script和style標簽)

tag() and tagName()

操作HTML和文本append(String html), prepend(String html)

appendText(String text), prependText(String text)

appendElement(String tagName), prependElement(String tagName)

html(String value)

2.使用選擇器來查找元素

使用jQuery時，我們無不為其強大的選擇器嘆服，jsoup有同樣的強大的選擇器，可以方便我們的對文檔進行處理。示例代碼如下：

jsoup elements對象支持類似于CSS (或jquery)的選擇器語法，來實現非常強大和靈活的查找功能。.

這個select 方法在Document, Element,或Elements對象中都可以使用。且是上下文相關的，因此可實現指定元素的過濾，或者鏈式選擇訪問。

Select方法將返回一個Elements集合，并提供一組方法來抽取和處理結果。

Elements links = doc.select("a[href]"); //帶有href屬性的a元素

Elements pngs = doc.select("img[src$=.png]");

//擴展名為.png的圖片

Element masthead = doc.select("div.masthead").first();

//class等于masthead的div標簽

Elements resultLinks = doc.select("h3.r > a"); //在h3元素之后的a元素

jsoup elements對象支持類似于CSS (或jquery)的選擇器語法，來實現非常強大和靈活的查找功能。.

這個select 方法在Document, Element,或Elements對象中都可以使用。且是上下文相關的，因此可實現指定元素的過濾，或者鏈式選擇訪問。

Select方法將返回一個Elements集合，并提供一組方法來抽取和處理結果。

3.從元素中抽取屬性和文檔使用Jsoup抽取屬性，一般方法如下：

要取得一個屬性的值，可以使用Node.attr(String key) 方法

對于一個元素中的文本，可以使用Element.text()方法

對于要取得元素或屬性中的HTML內容，可以使用Element.html(), 或 Node.outerHtml()方法

示例如下：

String html = "

An example link.

Document doc = Jsoup.parse(html);//解析HTML字符串返回一個Document實現

Element link = doc.select("a").first();//查找第一個a元素

String text = doc.body().text(); // "An example link"//取得字符串中的文本

String linkHref = link.attr("href"); // "http://example.com/"//取得鏈接地址

String linkText = link.text(); // "example""//取得鏈接地址中的文本

String linkOuterH = link.outerHtml();

// "example"

String linkInnerH = link.html(); // "example"//取得鏈接內的html內容

4.URL處理

我們在處理HTML內容時，可能經常會遇到這種問題，需要將html頁面里面的鏈接地址從相對地址轉換成絕對地址，jsoup有一個方法用來解決此問題。我們前面對到的baseurl，就是用來解決此問題的。示例代碼如下：

Document doc = Jsoup.connect("http://www.baidu.com/").get();

Element link = doc.select("a").first();

String relHref = link.attr("href"); // == "/"

String absHref = link.attr("abs:href");

// "http://www.baidu.com/gaoji/preferences.html"

在HTML元素中，URLs經常寫成相對于文檔位置的相對路徑：?…. 當你使用 Node.attr(String key) 方法來取得a元素的href屬性時，它將直接返回在HTML源碼中指定定的值。

假如你需要取得一個絕對路徑，需要在屬性名前加 abs: 前綴。這樣就可以返回包含根路徑的URL地址attr(“abs:href”)

因此，在解析HTML文檔時，定義base URI非常重要。如果你不想使用abs: 前綴，還有一個方法能夠實現同樣的功能 Node.absUrl(String key)。

數據修改

1.設置屬性值

在處理html時，我們有時候可能需要修改里面的屬性值，如圖片地址、class名稱等各種屬性。

可以使用屬性設置方法 Element.attr(String key, String value), 和 Elements.attr(String key, String value).

假如你需要修改一個元素的 class 屬性，可以使用 Element.addClass(String className) 和Element.removeClass(String className) 方法。

Elements 提供了批量操作元素屬性和class的方法，比如：要為div中的每一個a元素都添加一個rel=”nofollow”

可以使用如下方法：1doc.select("div.comments?a").attr("rel",?"nofollow");

這里的jsoup方法同樣支持鏈接操作，如下：1doc.select("div.masthead").attr("title",?"jsoup").addClass("round-box");

2.設置元素的html內容

我們需要向html里面添加html片段等內容時可以如下操作：

Element div = doc.select("div").first(); //

div.html("

lorem ipsum

"); //

lorem ipsum

div.prepend("

First

");//在div前添加html內容

div.append("

Last

");//在div之后添加html內容

// 添完后的結果:

First

lorem ipsum

Last

Element span = doc.select("span").first(); // One

span.wrap("

");

//對元素包裹一個外部HTML內容添完后的結果:

One

3.設置元素的文本內容

如果我們需要修改元素內的文本內容，可以如下操作：

Element div = doc.select("div").first(); //

div.text("five > four"); //

five > four

div.prepend("First ");

div.append(" Last");

// now:

First five > four Last

說明

文本設置方法與 HTML setter 方法一樣：

Element.text(String text) 將清除一個元素中的內部HTML內容，然后提供的文本進行代替

Element.prepend(String first) 和 Element.append(String last) 將分別在元素的內部html前后添加文本節點。

對于傳入的文本如果含有像等這樣的字符，將以文本處理，而非HTML。

總結

以上是生活随笔為你收集整理的java用jsoup爬网页数据_java使用jsoup爬取网页数据的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： java 部分正确性_深入理解java快
下一篇： java paint文字_Java中pa