Jsoup爬虫实例
一、簡介
jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數據。(來源百度)
?二、準備
首先你需要找到一個你需要爬取數據的網站,找到你需要的數據所在HTML中的定位
?可以根據下面這個指令查看你定位是否正確
document.querySelector(".zwm").innerText?
?下面事具體實現:
public static void collectSingle() throws IOException{//獲取5頁公司數據for (int i = 1; i <=5; i++) {//獲取頁面文本的地址 地址省略了String addr = "http://www.*****.com/job/p"+i+".shtml";URL url = new URL(addr);Document doc = Jsoup.parse(url,5000);//解析內容,提取數據Elements as = doc.select("a.comName");as.forEach(a->{String href = a.attr("href");href = "http://www.*****.com"+href;//插入數據庫的sql語句String sql = "insert into com values (?,?,?,?,?,?,?,?,?)";try{//提取地址中的idString sid = href.replaceAll("\\D+(\\d+)\\.shtml","$1");int id = Integer.parseInt(sid);SpiderHelper.collectSingle(href,sql,id,".zwm>span",".zwm>em",".gsmc:nth-child(2)",".jbyq",//要求".fuli",//福利".gsmc>a>span",//公司名稱".gsmc>span",//發布時間".zwmsCon",//簡介".gzddCon>span");} catch (IOException e) {e.printStackTrace();}catch (RuntimeException e){//跳過DBhelper產生的運行是異常===》相同的公司數據}});}}查看數據庫,運行成功!
?
總結
- 上一篇: java商城_java开源商城系统的优势
- 下一篇: 物联网技术周报第 143 期: Unit