【微博】评论采集
采集場景
在微博主頁(https://weibo.com/)登錄后,打開微博博文鏈接,采集博文鏈接的評論數據。實例網址:https://weibo.com/1977661791/I7PgktlCh 。
采集字段
博主用戶名、發布時間、博文、分享數、評論數、點贊數、評論、評論用戶名、評論時間。
采集結果
采集結果可導出為Excel、CSV、HTML、數據庫等多種格式。導出為Excel示例:
教程說明
本篇更新時間:2020/05/18 八爪魚版本:V8.1.12
如果因網頁改版造成網址或步驟無效,無法收集到目標數據,請聯系官方客服,我們將及時修正。
采集步驟
步驟一:打開網頁
步驟二、使用賬號密碼登錄微博
步驟三、創建【循環-打開網頁】,批量打開多個博文網址
步驟四、設置滾動
步驟五、提取微博字段 步驟
步驟六、創建循環翻頁,以采集多頁評論
步驟七、創建【循環點擊】,展開評論下的回復
步驟八、創建【循環列表】,提取評論列表數據
步驟九、啟動采集
以下為具體步驟:
步驟一、打開網頁
在首頁【輸入框】中,輸入微博主頁網址 https://weibo.com/,點擊【開始采集】,八爪魚自動打開網址。
特別說明:
a. 打開網頁后,如果開始【自動識別】,請點擊【不再自動識別】或【取消識別】將其關掉。因為本文不適合使用【自動識別】。
b. 【自動識別】適用于自動識別網頁上的列表、滾動和翻頁,識別成功后直接啟動采集即可獲取數據。詳情點擊查看 【自動識別】教程
步驟二、使用賬號密碼登錄微博
要采集微博評論數據,首先需要登錄。如果沒有登錄,采集過程中容易跳出登錄提示,影響正常采集。
在八爪魚中的登錄步驟:
1、選中用戶名輸入框,在操作提示框中點擊【輸入文本】,輸入賬號。
2、選中密碼輸入框,在操作提示框中點擊【輸入文本】,輸入密碼。
3、選中【登錄】按鈕,在操作提示框中,點擊【單擊該按鈕】。
等待一會后,成功登陸微博。
特別說明:
a. 一般情況下,微博輸入賬號密碼即可登錄。如果登錄時出現驗證碼,八爪魚也可解決,點擊查看 處理需要登錄的網頁(含登錄時有驗證碼)
b. 如果賬號密碼輸錯, 進入【輸入文本】設置頁面,更改成正確的即可。更改后再執行一次【點擊元素】,即可完成登錄。
步驟三、創建【循環-打開網頁】,批量打開多個博文網址
創建【循環-打開網頁】,批量打開多個博文網址,實現自動采集多個博文網址下的評論。
在【點擊元素】步驟后,添加一個【循環】。
進入【循環】設置頁面。選擇循環方式為【網址列表】,點擊 按鈕,將我們準備好的網址(可同時輸入多個網址,一行一個即可)后保存。
步驟四、設置滾動
打開微博主頁后,默認只顯示一部分評論列表。向下滾動頁面3次,才會出現【查看更多】按鈕,點擊此按鈕可查看更多評論。在八爪魚中也需設置滾動。
進入【打開網頁】設置頁面,點開【頁面加載后】,設置【頁面加載后向下滾動】,滾動方式為【滾動到底部】,【滾動次數】為3次,【每次間隔】2秒 并保存。
特別說明:
a. 設置中的滾動次數和時間間隔,請根據采集需求和網頁加載情況進行設置,并非是一成不變的,具體請點擊查看處理滾動加載數據的網頁教程
步驟五、提取微博字段
選中網頁中的目標字段,在操作提示框中點擊【采集該元素的文本】。
所有文本類的字段都可這樣提取,示例中提取了 用戶名、發布時間、博文詳情、評論數、點贊數 。
步驟六、創建循環翻頁,以采集多頁評論
1、創建循環翻頁
找到并選中網頁里的【查看更多】按鈕,在操作提示上單擊【循環點擊單個元素】,創建【循環翻頁】。
特別說明:
a. 創建【循環翻頁】后,采集數據時八爪魚就會自動點擊【查看更多】按鈕翻頁,以加載更多微博評論。
2、設置翻頁次數
針對這類通過【查看更多】進行翻頁的網頁,需設置一個合適的翻頁次數。
進入【循環翻頁】設置頁面,點開【退出循環設置】,勾選【循環執行次數等于】10次。
特別說明:
a. 為什么通過【查看更多】進行翻頁的網頁,需設置一個合適的翻頁次數?通過一定次數的【查看更多】翻頁后,頁面上展示出非常多的評論列表。這些列表同在一個頁面,采集的時候都會被定為到。如果同時定位的列表過多,速度會慢,影響數據的正常采集。設置一個合理的翻頁次數,可以控制同時定位到的列表,保障數據采集正常進行。
步驟七、創建【循環點擊】,展開評論下的回復
微博的評論分為主評論和其回復。示例中,我們點擊【共X條回復】展開評論下的回復。
如果主評論下的回復過多,需點擊多次【共X條回復】,才能展開全部回復。示例中只考慮點擊1次【共X條回復】的情況。
1、創建【循環點擊】
① 在網頁中選中第一個【共X條回復】按鈕
② 在操作提示框中,點擊【選中全部】
③ 繼續選擇【循環點擊每個鏈接】
2、調整流程結構
我們需要的采集邏輯為:先點擊【查看更多】進行翻頁 → 點擊【共X條回復】展開主評論下的回復。
但自動生成的采集流程不是這樣的,需手動調整:選中【循環列表-點擊元素1】整個步驟,將其拖入到【循環翻頁】后。
特別說明:
a. 流程十分靈活,可根據需求調整各個步驟的位置。
3、修改【循環點擊】XPath
一條博文下,【共X條回復】的個數是不確定的。默認生成的【循環點擊】XPath,無法精準定位到每一個【共X條回復】,需手動修改。
進入【循環列表】設置頁面,選擇【循環方式】為【不固定元素列表】,修改XPath為://div[@class=“WB_text”]/a[@suda-uatrack] ,然后保存。
特別說明:
a. 這里需要一定的XPath知識。點擊查看 XPath學習與實例教程 。
步驟八、創建【循環列表】,提取評論列表數據
1、建立【循環列表】
通過以下連續4步,采集所有評論列表數據:
1、選中頁面上1個評論列表(注意一定要選中整個列表,包含所有所需字段)
2、在黃色操作提示框中,點擊【選中子元素】
3、點擊【選擇全部】
4、點擊【采集數據】
特別說明:
a. 經過以上連續4步,【循環-提取數據】創建完成。【循環】中的項,對應著頁面上所有評論列表,【提取數據】中的字段,對應著每個評論列表中的字段。啟動采集以后,八爪魚就會按照循環中的順序依次提取每個列表中的字段。
b. 為何通過以上4步,可建立【循環-提取數據】?詳情點擊查看 列表數據采集教程 。
2、編輯字段
進入【提取數據】設置頁面,可刪除多余字段,修改字段名,移動字段順序等。
3、增加【主評論】字段
以上操作是采集的評論回復。增加一個【主評論】字段,將主評論與評論回復數據一一對應起來。
進入【提取數據】設置頁面,點擊【+】按鈕,選擇【添加固定字段】,點擊保存。
點擊【自定義字段】后的 按鈕,勾選【相對于當前循環里的XPath】,輸入XPath://…/…/…/…/preceding-sibling::div[@class=“WB_text”][1] ,然后保存。
點擊【自定義字段】后的【…】按鈕,選擇【自定義抓取方式】,選擇【抓取文本】。
修改字段名為【主評論】。
點擊【應用】保存以上所有設置。
步驟九、啟動采集
1、單擊【采集】并【啟動本地采集】。啟動后八爪魚開始自動采集數據。
特別說明:
a.【本地采集】是使用自己的電腦進行采集,【云采集】是使用八爪魚提供的云服務器采集,點擊查看本地采集與云采集詳解。
2、采集完成后,選擇合適的導出方式導出數據。支持導出為Excel、CSV、HTML、數據庫等。這里導出為Excel。數據示例:
總結
- 上一篇: wordpress 根据文章ID获取分类
- 下一篇: POJ 3264 Balanced