关于火车采集js调用文章资讯的方法 淘宝采集 相关
生活随笔
收集整理的這篇文章主要介紹了
关于火车采集js调用文章资讯的方法 淘宝采集 相关
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
關于火車采集js調用文章資訊的方法
心島發布于2014年12月16日 分類: 數據采集? 瀏覽:761 人次 評論:0一、需要準備的工具軟件:
火車頭采集器
抓包軟件(我使用的是fiddler)
二、首先以淘寶密兒為例說明如何對js調用的網頁進行抓包
整體思路:利用網頁cookie進行數據抓包處理。
1、安裝運行抓包軟件:
2、打開淘寶密兒網頁并將網頁滾動至網頁底部,滾動過程中,你會發現大約一張頁面會有5次js加載,然后點擊狀態欄的抓包軟件,所有的抓包數據一目了然:
三、根據抓包數據設置采集規則
1、打開火車采集軟件,新建一采集任務,然后點擊采集網址選項卡的添加按鈕,添加采集網址:
2、提取js頁面的下層頁面網址和該欄目的文章總數:
關于找網址的方法如下圖所示:
利用文本工具打開代碼后的對應關系如下(注意:復制的是項目的值,不要連標題都復制過去):
這樣完成后會采集到列表頁面網址,但是我們還需要通過代碼分析的方法將下層的網址也要提取出來:
注意:上圖中需要將cookie復制到上圖中的對應位置,然后開始查看:
如上圖所示,這樣就是已經成功執行了,注意紅框中的總頁數,如果大家最后采集到的頁面總數可以和此處對比!
3、提取內容頁的腳本規則:
利用上一步中我們查看到的代碼來分析
至此,通過抓包軟件獲取js頁面文章地址的方法就講述完畢了,如果大家有任何問題,請在心島博客中留言,我講盡快協助解決問題!
總結
以上是生活随笔為你收集整理的关于火车采集js调用文章资讯的方法 淘宝采集 相关的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 三角函数π/2转化_高中数学:三角函数知
- 下一篇: 图像标注-自动标注图像