當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

jsoup API

發(fā)布時間：2024/1/1 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 jsoup API 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

jsoup API

1.解析一個簡單的html文件
- 1.1 Jsoup 干凈的解析結(jié)果

1.解析一個簡單的html文件

/*** @ClassName: JouspT1* @Description: TODO Jsoup解析* @author jmwang.erics* @date 2021年3月17日**/ public class JouspT1 {/*** @Title: main* @Description: TODO 解析和遍歷一個HTML文檔* @param @param args 參數(shù)* @return void 返回類型* @throws*/public static void main(String[] args) { // String htmlT = importHTMLFile(null); // System.out.println(htmlT);String html = "<html><head><title id='www'>First parse</title><title class='1'>First2 parse2</title></head>" + "<body>Parsed HTML into a doc.</body></html>";//返回html格式/*** 走一個Parser.parse(html, "");方法* 使用的是TreeBuilder生成樹類的parse(html, baseUri, ParseErrorList.noTracking());解析創(chuàng)建樹，最后返回給Document*/Document parse = Jsoup.parse(html);System.out.println(parse);//通過 id獲取Element elementById = parse.getElementById("www");System.out.println(elementById);//通過 tag獲取Elements allElements = elementById.getElementsByTag("title");System.out.println(allElements);//通過class獲取Elements elementsByClass = parse.getElementsByClass("1");System.out.println(elementsByClass);}/*** * @Title: generalAnalysisHTML* @Description: TODO 導(dǎo)入HTML文件* @param @param path* @param @return 參數(shù)* @return String 返回類型* @throws*/public static String importHTMLFile(String path) {File file = new File(path);FileReader fileReader = null;BufferedReader bufferedReader = null;StringBuilder html = new StringBuilder();try {fileReader = new FileReader(file);bufferedReader = new BufferedReader(fileReader);String tempString = null;while ((tempString=bufferedReader.readLine())!=null) {html.append(tempString);}} catch (FileNotFoundException e) {e.printStackTrace();} catch (IOException e) {e.printStackTrace();}return html.toString();} }

1.1 Jsoup 干凈的解析結(jié)果

直接解決

沒有關(guān)閉的標(biāo)簽

(比如： Lorem Ipsum parses to Lorem Ipsum)

隱式標(biāo)簽

(比如. 它可以自動將 <td>Table data</td>包裝成<table><tr><td>?)

創(chuàng)建可靠的文檔結(jié)構(gòu)

（html標(biāo)簽包含head 和 body，在head只出現(xiàn)恰當(dāng)?shù)脑?#xff09;

總結(jié)

以上是生活随笔為你收集整理的jsoup API的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

API
Jsoup