使用Jsoup实现网络爬虫
生活随笔
收集整理的這篇文章主要介紹了
使用Jsoup实现网络爬虫
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
一、什么是Jsoup?
jsoup是一款Java的HTML解析器、可以通過(guò)URL獲取DOM元素并解析,也可對(duì)HTML文本內(nèi)容進(jìn)行解析,jsoup提供了一套非常簡(jiǎn)單的方法,類似于CSS、JQuery的操作方法對(duì)元素或者是數(shù)據(jù)進(jìn)行操作。
二、Jsoup的特點(diǎn)及作用
- 從URL,文件或字符串中抓取并解析HTML
- 使用DOM遍歷或CSS選擇器查找和提取數(shù)據(jù)
- 處理HTML元素,屬性和文本
- 根據(jù)安全的白名單清除用戶提交的內(nèi)容,以防止XSS攻擊
- 輸出整潔的HTML
三、示例
1、解析資源的方式
(1) Jsoup.connect(urlPath).get(); //加載URL (2) Jsoup.parse(""); //從字符串中解析 (3) Jsoup.parse(File in,String charsetName,String baseUri); //從本地文件進(jìn)行解析該示例使用第一種方式,加載URL
2、添加相關(guān)依賴
2.1 pom.xml中添加依賴
2.2 或者下載Jar包:
jsoup-1.13.1.jar
3、示例代碼
紅色框中是我們想要的部分,每一個(gè)DIV對(duì)應(yīng)一張圖片
總結(jié)
以上是生活随笔為你收集整理的使用Jsoup实现网络爬虫的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 切面编程(4)
- 下一篇: VMware内存回收与分配机质