java 网页正文抽取算法_网页正文抽取算法 ContentExtractor
軟件介紹
簡介
ContentExtractor 是一個開源的網頁正文抽取工具,用JAVA實現,具有非常高的抽取精度。
算法
ContentExtractor的網頁正文抽取算法使用的是CEPR,適用于幾乎所有的包含正文的網頁。 算法簡介:
項目地址轉移
項目已和WebCollector合并,當前項目為老版本ContentExtractor,請前往WebCollector項目查看ContentExtractor的最新版本源碼和API。
教程(只適用于老版本,新版本請前往WebCollector)
ContentExtractor的接口非常簡單,用戶可以根據網頁的url,或者網頁的html,來進行網頁正文抽取:
根據url,抽取網頁的正文:
public?static?void?main(String[]?args)?throws?Exception?{
String?content=ContentExtractor.getContentByURL("http://news.
xinhuanet.com/world/2014-11/02/c_127166728.htm");
System.out.println(content);
}
根據html,抽取網頁的正文:
public?static?void?main(String[]?args)?throws?Exception?{
String?html="獲取到的html源碼";
String?content=ContentExtractor.getContentByHtml(html);
System.out.println(content);
}
導入項目(只適用于老版本,新版本請前往WebCollector)
從ContentExtractor的github主頁https://github.com/hfut-dmic/ContentExtractor上下載ContentExtractor-{版本號}-bin.zip,將解壓后得到的jar包全部放到工程的build path即可。
ContentExtractor由合肥工業大學dmic團隊開發
為你推薦:
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的java 网页正文抽取算法_网页正文抽取算法 ContentExtractor的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 分区助手扩大c盘后自动修复_磁盘分区工具
- 下一篇: 一级计算机B理论知识和答案,计算机一级B