webscraper多页爬取_【实践】笔记_Chrome插件webscraper爬取天眼通数据
需求:獲取指定關鍵字(母嬰)下的公司信息(公司名稱、地址、法人、聯系方式)
步驟:
一、下載webscraper插件。
通過Chrome瀏覽器的擴展程序發現發不開Chrome商店,此處提供一個百度云盤鏈接(https://pan.baidu.com/s/1E0DCxzGvz4qkaLin_i8L9w),將文件下載到本地
二、安裝webscraper插件到Chrome瀏覽器。
打開Chrome瀏覽器的擴展程序頁面(chrome://extensions/),將本地的插件文件拖動到瀏覽器的插件頁面,按照提示操作便可,出現下圖說明成功:
插件安裝成功
三、啟動webscraper插件
打開Chrome瀏覽器,按下F12(有的是Fn+F12),在導航中單擊web scraper
四、webscrapy工作原理
參考:https://www.yuanrenxue.com/tricks/web-scraper-principle-1.html
結構
運行邏輯
五、開始抓取天眼通數據
1.最快的方式就是導入現成的sitemap文件,導入到webscraper中即可,此處我提供一個已經寫好的(結構還是很清晰的),讀者在使用時可按照自己的需要修改關鍵字和爬取的頁數:
{"selectors":[{"parentSelectors":["_root"],"type":"SelectorElement","multiple":true,"id":"root","selector":"div.search-result-single","delay":"2000"},{"parentSelectors":["root"],"type":"SelectorLink","multiple":false,"id":"jump","selector":"a.name","delay":"800"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"company","selector":"h1.name","regex":"","delay":"300"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"phone","selector":"div.in-block:nth-of-type(1) span:nth-of-type(2)","regex":"","delay":"200"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"address","selector":"table.table.-striped-col tr:nth-of-type(9) td:nth-of-type(2)","regex":"","delay":"400"},{"parentSelectors":["root"],"type":"SelectorText","multiple":false,"id":"Contacts","selector":"a.legalPersonName","regex":"","delay":"400"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"scale","selector":"table.table.-striped-col tr:nth-of-type(7) td:nthf-type(4)","regex":"","delay":"200"}],"startUrl":"https://www.tianyancha.com/search/p[1-5]?key=銀行&base=hefei","_id":"yinhang"}
2.自己按照實際需要按照下面的基本步驟來創建
步驟1 創建sitemap
image.png
image.png
image.png
image.png
image.png
以上只是最基本的操作,復雜的功能我目前用到了3個地方,在這里做下補充
1.針對分頁數據時,可以在訪問的主入口中控制,比如我提供的現成sitemap中"startUrl":"https://www.tianyancha.com/search/p[1-5]?key=銀行&base=hefei",這里面p[1-5]標識的是從第1到第5,間隔默認是1,那么webscraper就會依次訪問1-5數字。
2.涉及跳轉新頁面時,需要建立link,跳轉的新頁面不能另外打開,這里可以直接拷貝跳轉頁面的地址在當前頁面打開,這樣就可以繼續在當前打開的webscraper中編寫了。
3.Delay時間建議都寫,避免觸發反爬蟲
4.webscraper使用的元素選擇器是css selector。
總結
以上是生活随笔為你收集整理的webscraper多页爬取_【实践】笔记_Chrome插件webscraper爬取天眼通数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 黄河颂是谁画的啊?
- 下一篇: 上海欢乐谷需要身份证吗