java使用htmlparser提取网页纯文本例子
生活随笔
收集整理的這篇文章主要介紹了
java使用htmlparser提取网页纯文本例子
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
轉(zhuǎn)載自? ?java使用htmlparser提取網(wǎng)頁(yè)純文本例子
這篇文章主要介紹了java使用htmlparser提取網(wǎng)頁(yè)純文本例子,需要的朋友可以參考下 package com.test; import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.filters.TagNameFilter; import org.htmlparser.tags.TableTag; import org.htmlparser.util.NodeList;/** * 標(biāo)題:利用htmlparser提取網(wǎng)頁(yè)純文本的例子 */ public class TestHTMLParser {public static void testHtml() {try {String sCurrentLine;String sTotalString;sCurrentLine = "";sTotalString = "";java.io.InputStream l_urlStream;java.net.URL l_url = new java.net.URL("http://www.ideagrace.com/html/doc/2006/07/04/00929.html");java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();l_connection.connect();l_urlStream = l_connection.getInputStream();java.io.BufferedReader l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));while ((sCurrentLine = l_reader.readLine()) != null) {sTotalString += sCurrentLine+"/r/n";// System.out.println(sTotalString);}String testText = extractText(sTotalString);System.out.println( testText );} catch (Exception e) {e.printStackTrace();}}public static String extractText(String inputHtml) throws Exception {StringBuffer text = new StringBuffer();Parser parser = Parser.createParser(new String(inputHtml.getBytes(),"GBK"), "GBK");// 遍歷所有的節(jié)點(diǎn)NodeList nodes = parser.extractAllNodesThatMatch(new NodeFilter() {public boolean accept(Node node) {return true;}});System.out.println(nodes.size()); //打印節(jié)點(diǎn)的數(shù)量for (int i=0;i<nodes.size();i++){Node nodet = nodes.elementAt(i);//System.out.println(nodet.getText()); text.append(new String(nodet.toPlainTextString().getBytes("GBK"))+"/r/n"); }return text.toString();}public static void test5(String resource) throws Exception {Parser myParser = new Parser(resource);myParser.setEncoding("GBK");String filterStr = "table";NodeFilter filter = new TagNameFilter(filterStr);NodeList nodeList = myParser.extractAllNodesThatMatch(filter);TableTag tabletag = (TableTag) nodeList.elementAt(11);}public static void main(String[] args) throws Exception {// test5("http://www.google.com");testHtml();} }總結(jié)
以上是生活随笔為你收集整理的java使用htmlparser提取网页纯文本例子的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 手机浏览器怎么设置成电脑版网页如何浏览电
- 下一篇: 使用Java将HTML转成Word格式文