當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

webscraper多页爬取_【实践】笔记_Chrome插件webscraper爬取天眼通数据

發布時間：2023/11/27 生活经验 46 豆豆

生活随笔收集整理的這篇文章主要介紹了 webscraper多页爬取_【实践】笔记_Chrome插件webscraper爬取天眼通数据小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

需求：獲取指定關鍵字(母嬰)下的公司信息(公司名稱、地址、法人、聯系方式)

步驟：

一、下載webscraper插件。

通過Chrome瀏覽器的擴展程序發現發不開Chrome商店，此處提供一個百度云盤鏈接(https://pan.baidu.com/s/1E0DCxzGvz4qkaLin_i8L9w)，將文件下載到本地

二、安裝webscraper插件到Chrome瀏覽器。

打開Chrome瀏覽器的擴展程序頁面(chrome://extensions/)，將本地的插件文件拖動到瀏覽器的插件頁面，按照提示操作便可，出現下圖說明成功：

插件安裝成功

三、啟動webscraper插件

打開Chrome瀏覽器，按下F12(有的是Fn+F12)，在導航中單擊web scraper

四、webscrapy工作原理

參考：https://www.yuanrenxue.com/tricks/web-scraper-principle-1.html

結構

運行邏輯

五、開始抓取天眼通數據

1.最快的方式就是導入現成的sitemap文件，導入到webscraper中即可，此處我提供一個已經寫好的(結構還是很清晰的)，讀者在使用時可按照自己的需要修改關鍵字和爬取的頁數：

{"selectors":[{"parentSelectors":["_root"],"type":"SelectorElement","multiple":true,"id":"root","selector":"div.search-result-single","delay":"2000"},{"parentSelectors":["root"],"type":"SelectorLink","multiple":false,"id":"jump","selector":"a.name","delay":"800"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"company","selector":"h1.name","regex":"","delay":"300"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"phone","selector":"div.in-block:nth-of-type(1) span:nth-of-type(2)","regex":"","delay":"200"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"address","selector":"table.table.-striped-col tr:nth-of-type(9) td:nth-of-type(2)","regex":"","delay":"400"},{"parentSelectors":["root"],"type":"SelectorText","multiple":false,"id":"Contacts","selector":"a.legalPersonName","regex":"","delay":"400"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"scale","selector":"table.table.-striped-col tr:nth-of-type(7) td:nthf-type(4)","regex":"","delay":"200"}],"startUrl":"https://www.tianyancha.com/search/p[1-5]?key=銀行&base=hefei","_id":"yinhang"}

2.自己按照實際需要按照下面的基本步驟來創建

步驟1 創建sitemap

image.png

以上只是最基本的操作，復雜的功能我目前用到了3個地方，在這里做下補充

1.針對分頁數據時，可以在訪問的主入口中控制，比如我提供的現成sitemap中"startUrl":"https://www.tianyancha.com/search/p[1-5]?key=銀行&base=hefei"，這里面p[1-5]標識的是從第1到第5，間隔默認是1，那么webscraper就會依次訪問1-5數字。

2.涉及跳轉新頁面時，需要建立link，跳轉的新頁面不能另外打開，這里可以直接拷貝跳轉頁面的地址在當前頁面打開，這樣就可以繼續在當前打開的webscraper中編寫了。

3.Delay時間建議都寫，避免觸發反爬蟲

4.webscraper使用的元素選擇器是css selector。

總結

以上是生活随笔為你收集整理的webscraper多页爬取_【实践】笔记_Chrome插件webscraper爬取天眼通数据的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。