當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

HtmlParser基础教程

發布時間：2024/1/23 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 HtmlParser基础教程小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、相關資料

官方文檔：http://htmlparser.sourceforge.net/samples.html

API：http://htmlparser.sourceforge.net/javadoc/index.html

其它HTML 解釋器：jsoup等。由于HtmlParser自2006年以后就再沒更新，目前很多人推薦使用jsoup代替它。

2、使用HtmlPaser的關鍵步驟

（1）通過Parser類創建一個解釋器

（2）創建Filter或者Visitor

（3）使用parser根據filter或者visitor來取得所有符合條件的節點

（4）對節點內容進行處理

3、使用Parser的構造函數創建解釋器

Parser()?
??????????Zero argument constructor.

Parser(Lexer?lexer)?
??????????Construct a parser using the provided lexer.

Parser(Lexer?lexer,?ParserFeedback?fb)?
??????????Construct a parser using the provided lexer and feedback object.

Parser(String?resource)?
??????????Creates a Parser object with the location of the resource (URL or file).

Parser(String?resource,?ParserFeedback?feedback)?
??????????Creates a Parser object with the location of the resource (URL or file) You would typically create a DefaultHTMLParserFeedback object and pass it in.

Parser(URLConnection?connection)?
??????????Construct a parser using the provided URLConnection.

Parser(URLConnection?connection,?ParserFeedback?fb)?
??????????Constructor for custom HTTP access.

? ? ? ? 對于大多數使用者來說，使用最多的是通過一個 URLConnection 或者一個保存有網頁內容的字符串來初始化Parser，或者使用靜態函數來生成一個Parser對象。 ParserFeedback 的代碼很簡單，是針對調試和跟蹤分析過程的，一般不需要改變。而使用 Lexer 則是一個相對比較高級的話題，放到以后再討論吧。
? ? ? ? 這里比較有趣的一點是，如果需要設置頁面的編碼方式的話，不使用Lexer就只有靜態函數一個方法了。對于大多數中文頁面來說，好像這是應該用得比較多的一個方法。

4、HtmlPaser使用Node對象保存各節點信息

（1）訪問各個節點的方法
Node?getParent?()：取得父節點
NodeList?getChildren?()：取得子節點的列表
Node?getFirstChild?()：取得第一個子節點
Node?getLastChild?()：取得最后一個子節點
Node?getPreviousSibling?()：取得前一個兄弟（不好意思，英文是兄弟姐妹，直譯太麻煩而且不符合習慣，對不起女同胞了）
Node?getNextSibling?()：取得下一個兄弟節點
（2）取得Node內容的函數
String?getText?()：取得文本
String?toPlainTextString()：取得純文本信息。
String?toHtml?()?：取得HTML信息（原始HTML）
String?toHtml?(boolean verbatim)：取得HTML信息（原始HTML）
String?toString?()：取得字符串信息（原始HTML）
Page?getPage?()：取得這個Node對應的Page對象
int?getStartPosition?()：取得這個Node在HTML頁面中的起始位置
int?getEndPosition?()：取得這個Node在HTML頁面中的結束位置

5、使用Filter訪問Node節點及其內容

（1）Filter的種類

顧名思義，Filter就是對于結果進行過濾，取得需要的內容。

所有的Filter均實現了NodeFilter接口，此接口只有一個方法Boolean accept(Node node)，用于確定某個節點是否屬于此Filter過濾的范圍。

HTMLParser在org.htmlparser.filters包之內一共定義了16個不同的Filter，也可以分為幾類。
判斷類Filter：
TagNameFilter
HasAttributeFilter
HasChildFilter
HasParentFilter
HasSiblingFilter
IsEqualFilter
邏輯運算Filter：
AndFilter
NotFilter
OrFilter
XorFilter
其他Filter：
NodeClassFilter
StringFilter
LinkStringFilter
LinkRegexFilter
RegexFilter
CssSelectorNodeFilter

除此以外，可以自定義一些Filter，用于完成特殊需求的過濾。
（2）Filter的使用示例

以下示例用于提取HTML文件中的鏈接

[java]?view plaincopy

package?org.ljh.search.html;??

import?java.util.HashSet;??

import?java.util.Set;??

import?org.htmlparser.Node;??

import?org.htmlparser.NodeFilter;??

import?org.htmlparser.Parser;??

import?org.htmlparser.filters.NodeClassFilter;??

import?org.htmlparser.filters.OrFilter;??

import?org.htmlparser.tags.LinkTag;??

import?org.htmlparser.util.NodeList;??

import?org.htmlparser.util.ParserException;??

//本類創建用于HTML文件解釋工具??

public?class?HtmlParserTool?{??

????//?本方法用于提取某個html文檔中內嵌的鏈接??

????public?static?Set<String>?extractLinks(String?url,?LinkFilter?filter)?{??

????????Set<String>?links?=?new?HashSet<String>();??

????????try?{??

????????????//?1、構造一個Parser，并設置相關的屬性??

????????????Parser?parser?=?new?Parser(url);??

????????????parser.setEncoding("gb2312");??

????????????//?2.1、自定義一個Filter，用于過濾<Frame?>標簽，然后取得標簽中的src屬性值??

????????????NodeFilter?frameNodeFilter?=?new?NodeFilter()?{??

????????????????@Override??

????????????????public?boolean?accept(Node?node)?{??

????????????????????if?(node.getText().startsWith("frame?src="))?{??

????????????????????????return?true;??

????????????????????}?else?{??

????????????????????????return?false;??

????????????????????}??

????????????????}??

????????????};??

??????????????

????????????//2.2、創建第二個Filter，過濾<a>標簽??

????????????NodeFilter?aNodeFilter?=?new?NodeClassFilter(LinkTag.class);??

??????????????

????????????//2.3、凈土上述2個Filter形成一個組合邏輯Filter。??

????????????OrFilter?linkFilter?=?new?OrFilter(frameNodeFilter,?aNodeFilter);??

??????????????

????????????//3、使用parser根據filter來取得所有符合條件的節點??

????????????NodeList?nodeList?=?parser.extractAllNodesThatMatch(linkFilter);??

??????????????

????????????//4、對取得的Node進行處理??

????????????for(int?i?=?0;?i<nodeList.size();i++){??

????????????????Node?node?=?nodeList.elementAt(i);??

????????????????String?linkURL?=?"";??

????????????????//如果鏈接類型為<a?/>??

????????????????if(node?instanceof?LinkTag){??

????????????????????LinkTag?link?=?(LinkTag)node;??

????????????????????linkURL=?link.getLink();??

????????????????}else{??

????????????????????//如果類型為<frame?/>??

????????????????????String?nodeText?=?node.getText();??

????????????????????int?beginPosition?=?nodeText.indexOf("src=");??

????????????????????nodeText?=?nodeText.substring(beginPosition);??

????????????????????int?endPosition?=?nodeText.indexOf("?");??

????????????????????if(endPosition?==?-1){??

????????????????????????endPosition?=?nodeText.indexOf(">");??

????????????????????}??

????????????????????linkURL?=?nodeText.substring(5,?endPosition?-?1);??

????????????????}??

????????????????//判斷是否屬于本次搜索范圍的url??

????????????????if(filter.accept(linkURL)){??

????????????????????links.add(linkURL);??

????????????????}??

????????????}??

??????????????

????????}?catch?(ParserException?e)?{??

????????????e.printStackTrace();??

????????}??

????????return?links;??

????}??

}??

程序中的一些說明：

（1）通過Node#getText()取得節點的String。

（2）node instanceof TagLink，即<a/>節點，其它還有很多的類似節點，如tableTag等，基本上每個常見的html標簽均會對應一個tag。官方文檔說明如下：

org.htmlparser.nodes	The nodes package has the concrete node implementations.
org.htmlparser.tags	The tags package contains specific tags.

因此可以通過此方法直接判斷一個節點是否某個標簽內容。

其中用到的LinkFilter接口定義如下：

[java]?view plaincopy

package?org.ljh.search.html;??

//本接口所定義的過濾器，用于判斷url是否屬于本次搜索范圍。??

public?interface?LinkFilter?{??

????public?boolean?accept(String?url);??

}??

測試程序如下：

[java]?view plaincopy

package?org.ljh.search.html;??

import?java.util.Iterator;??

import?java.util.Set;??

import?org.junit.Test;??

public?class?HtmlParserToolTest?{??

????@Test??

????public?void?testExtractLinks()?{??

????????String?url?=?"http://www.baidu.com";??

????????LinkFilter?linkFilter?=?new?LinkFilter(){??

????????????@Override??

????????????public?boolean?accept(String?url)?{??

????????????????if(url.contains("baidu")){??

????????????????????return?true;??

????????????????}else{??

????????????????????return?false;??

????????????????}??

????????????}??

??????????????

????????};??

????????Set<String>?urlSet?=?HtmlParserTool.extractLinks(url,?linkFilter);??

??????????

????????Iterator<String>?it?=?urlSet.iterator();??

????????while(it.hasNext()){??

????????????System.out.println(it.next());??

????????}??

????}??

}??

輸出結果如下：

http://www.hao123.com
http://www.baidu.com/
http://www.baidu.com/duty/
http://v.baidu.com/v?ct=301989888&rn=20&pn=0&db=0&s=25&word=
http://music.baidu.com
http://ir.baidu.com
http://www.baidu.com/gaoji/preferences.html
http://news.baidu.com
http://map.baidu.com
http://music.baidu.com/search?fr=ps&key=
http://image.baidu.com
http://zhidao.baidu.com
http://image.baidu.com/i?tn=baiduimage&ct=201326592&lm=-1&cl=2&nc=1&word=
http://www.baidu.com/more/
http://shouji.baidu.com/baidusearch/mobisearch.html?ref=pcjg&from=1000139w
http://wenku.baidu.com
http://news.baidu.com/ns?cl=2&rn=20&tn=news&word=
https://passport.baidu.com/v2/?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F
http://www.baidu.com/cache/sethelp/index.html
http://zhidao.baidu.com/q?ct=17&pn=0&tn=ikaslist&rn=10&word=&fr=wwwt
http://tieba.baidu.com/f?kw=&fr=wwwt
http://home.baidu.com
https://passport.baidu.com/v2/?reg&regType=1&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F
http://v.baidu.com
http://e.baidu.com/?refer=888
;
http://tieba.baidu.com
http://baike.baidu.com
http://wenku.baidu.com/search?word=&lm=0&od=0
http://top.baidu.com
http://map.baidu.com/m?word=&fr=ps01000

總結

以上是生活随笔為你收集整理的HtmlParser基础教程的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【搜索引擎Jediael开发4】V0.0
下一篇：【搜索引擎基础知识3】搜索引擎相关开源项