當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

关于火车采集js调用文章资讯的方法淘宝采集相关

發布時間：2023/12/20 编程问答 20 豆豆

生活随笔收集整理的這篇文章主要介紹了关于火车采集js调用文章资讯的方法淘宝采集相关小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

心島發布于2014年12月16日　分類： 數據采集?　瀏覽：761 人次　評論：0　

一、需要準備的工具軟件：

火車頭采集器

抓包軟件（我使用的是fiddler）

二、首先以淘寶密兒為例說明如何對js調用的網頁進行抓包

整體思路：利用網頁cookie進行數據抓包處理。

1、安裝運行抓包軟件：

2、打開淘寶密兒網頁并將網頁滾動至網頁底部，滾動過程中，你會發現大約一張頁面會有5次js加載,然后點擊狀態欄的抓包軟件，所有的抓包數據一目了然：

三、根據抓包數據設置采集規則

1、打開火車采集軟件，新建一采集任務，然后點擊采集網址選項卡的添加按鈕，添加采集網址：

2、提取js頁面的下層頁面網址和該欄目的文章總數：

關于找網址的方法如下圖所示：

利用文本工具打開代碼后的對應關系如下（注意：復制的是項目的值，不要連標題都復制過去）：

這樣完成后會采集到列表頁面網址，但是我們還需要通過代碼分析的方法將下層的網址也要提取出來：

注意：上圖中需要將cookie復制到上圖中的對應位置，然后開始查看：

如上圖所示，這樣就是已經成功執行了，注意紅框中的總頁數，如果大家最后采集到的頁面總數可以和此處對比！

3、提取內容頁的腳本規則：

利用上一步中我們查看到的代碼來分析

至此，通過抓包軟件獲取js頁面文章地址的方法就講述完畢了，如果大家有任何問題，請在心島博客中留言，我講盡快協助解決問題！

以上是生活随笔為你收集整理的关于火车采集js调用文章资讯的方法淘宝采集相关的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。