火车头采集翻页内容_火车头采集器教程:使用分页采集有分页的数据
使用分頁采集有分頁的數(shù)據(jù)
分頁就是目標(biāo)網(wǎng)站上一個(gè)文章分為好幾頁,我們需要設(shè)置規(guī)則將其全部采到。采集要點(diǎn):
1.采集規(guī)則要對(duì)每個(gè)分頁都適用。
2.分頁規(guī)則如果是全部列出,只要第一個(gè)頁面的分頁規(guī)則就可以了。如果是上下頁,每個(gè)頁面的分頁規(guī)則也要都適用。
具體操作流程:先測試獲得所有分頁,再對(duì)每個(gè)分頁里的內(nèi)容進(jìn)行獲取。
我們先解釋第一點(diǎn):采集規(guī)則要對(duì)每個(gè)分頁都適用
我們先看一下,這里分頁有兩個(gè),前一頁[1] [2] 下 一頁 ,我們要做的是要使所寫的規(guī)則在兩個(gè)頁面中都可以正常采到內(nèi)容,寫個(gè)規(guī)則,測試第一頁,成功獲 取內(nèi)容,然后改寫網(wǎng)址為第二個(gè),測試,同樣可以獲得我們要的內(nèi)容,那么,說明這一步你已經(jīng)成功了。進(jìn)入下一步。我的規(guī)則是這樣寫的,兩個(gè)頁面都通過。規(guī)則下 載.
現(xiàn)在我們看分頁這里的設(shè)置,全部列出是在第一頁或每一頁上都有全部的頒布文章的網(wǎng)址,上下頁是沒有將全部的列出。我們這個(gè)規(guī)則里選全部列出。因此, 我們只要在第一頁里找好包含所有網(wǎng)址的區(qū)域就可以了。
前一頁[1] [2] 下一頁看一下,上邊是有分頁網(wǎng)址的區(qū)域,選個(gè)開頭結(jié)尾,就可以正常采到分頁了。
火車的新版是可以直觀的看到分頁網(wǎng)址的,這對(duì)做分頁規(guī)則很有用。
看吧,這樣全部采集到了。。規(guī)則下 載。
注意:分頁設(shè)置下邊有個(gè)分頁內(nèi)容合并連接代碼,你可以設(shè)置成你想要的東西,比如你CMS的手動(dòng)分頁標(biāo)簽。
下邊我們來講一個(gè)上下頁的分頁處理方法及如何使用手動(dòng)鏈接地地規(guī)則.我們以 http://www.inpai.com.cn/doc/hard/86643.htm?這 個(gè)頁面為例.我們來找一下分頁的開頭和結(jié)尾,這個(gè)分頁很明顯.
開始:
結(jié)束:. 使用上一頁,下一頁的形式就可以采到所有地址.不過你會(huì)發(fā)現(xiàn)有一個(gè)地址是我們不需要的,看下邊:████████████████████████████████████
█此頁面包含多個(gè)分頁:
█1:http://www.inpai.com.cn/doc/hard/86643.htm
█2:http://www.inpai.com.cn/doc/hard/86643_2.htm
█3:http://www.inpai.com.cn/doc/hard/86643_3.htm
█4:http://www.inpai.com.cn/doc/hard/86643_4.htm
█5:http://www.inpai.com.cn/doc/hard/86643_5.htm
█6:http://www.inpai.com.cn/doc/hard/86643_6.htm
█7:http://www.inpai.com.cn/doc/hard/86643_7.htm
█8:http://www.inpai.com.cn/doc/hard/86643_8.htm
█9:http://www.inpai.com.cn/doc/hard/86643_9.htm
█10:http://www.inpai.com.cn/doc/hard/86643_10.htm
█11:http://www.inpai.com.cn/doc/hard/86643_11.htm
█12:http://www.inpai.com.cn/doc/hard/86643_12.htm
█13:http://www.inpai.com.cn/doc/hard/86643_13.htm
█14:http://www.inpai.com.cn/doc/hard/86643_14.htm
█15:http://www.inpai.com.cn/doc/hard/86643_15.htm
█16:http://www.inpai.com.cn/doc/hard/86643_16.htm
█17:http://www.inpai.com.cn/doc/hard/86643_17.htm
█18:http://www.inpai.com.cn/doc/hard/86643_18.htm
█19:http://product.inpai.com.cn/Product_default_1041.htm
█ 有分頁匹配的標(biāo)簽,比如內(nèi)容注意選中標(biāo)簽編輯框中的[該標(biāo)簽在分頁中匹配]
████████████████████████████████████
最后一個(gè)不是的,我們可以看到,前邊的網(wǎng)址和后邊的是不一樣的.現(xiàn)在是我們使用手動(dòng)填寫鏈接地址規(guī)則的時(shí)候了.在分頁鏈接地址樣式里邊,我們寫 http://www.inpai.com.cn/[參數(shù)].htm 分頁網(wǎng)址里寫http://www.inpai.com.cn/[參數(shù) 1].htm,現(xiàn)在看一下,正確了.
技巧:在使用自定義地址樣式時(shí),程序會(huì)自動(dòng)補(bǔ)全網(wǎng)址,請(qǐng)看這個(gè)規(guī)則
總結(jié)
以上是生活随笔為你收集整理的火车头采集翻页内容_火车头采集器教程:使用分页采集有分页的数据的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SAP PCA利润中心会计案例教程后台配
- 下一篇: beyond compare 中文乱码问