python 爬虫餐饮行业 数据分析_Python爬取美团美食板块商家数据
導語
利用Python簡單爬取美團美食板塊商家數據。。。
其實一開始我是想把美團的所有商家信息爬下來的,這樣就可以美其名曰百萬數據了。。。
然而相信很多爬過美團的朋友都發現了。。。
如果不進行一些小操作。。。
爬不了幾頁代碼就GG了。。。
后來想想我要這么多數據也沒什么用。。。
唯一對我有用的。。。
大概就是美食板塊了。。。
以后用到其他板塊的時候再另外爬就好了。。。
OK,Let's go!
主要思路
目的:
根據輸入的城市名,爬取該城市美團美食板塊所有商家的數據。數據包括:
店名、評分、評論數量、均價、地址,
并將這些數據存入Excel中。
最后嘗試對爬取到的數據做一個簡單的分析。
克服反爬蟲:
爬取每頁數據后,隨機停止一段時間后再爬下一頁;
每頁使用不同的cookie值。
具體原理:
沒用抓包軟件。。。
Chrome打開后看了下xhr。。。
發現直接有接口可以用。。。
給個cookie就能返回所需的數據了。。。
后來隨便點了幾個其他板塊的網頁。。。
發現也差不多是這個套路。。。
詳細的實現過程見源代碼。
開發工具
Python版本:3.5.4
相關模塊:
requests模塊;
win_unicode_console模塊;
openpyxl模塊;
以及一些Python自帶的模塊。
環境搭建
安裝Python并添加到環境變量,pip安裝需要的相關模塊即可。
使用演示
在cmd窗口運行MT_Cate_Spider.py文件即可。
簡單分析
其實在碼字的時候我臨時加的這個部分。。。
原因很簡單。。。
我想強調爬蟲和數據分析結合的重要性。。。
數據不多,懶得寫代碼分析了。。。
利用Excel的數據分析功能簡單分析一波吧~~~
用的上海地區的數據。
首先當然是按照評分排個序,然后做成柱狀圖:
然后是評論數量排個序,做成柱狀圖:
然后再做點其他有趣的圖案:
OK,That's all!
更多
如果有需要,我會寫一個爬取美團所有商家信息的腳本,因為就如之前所說。。。
貌似都有直接可以用的接口。。。
所以還算比較簡單。。。
只要弄到足夠多的cookie值就好了。。。
當然這個Flag應該是要到我實在沒東西寫或者懶得重新踩點的時候才會去實現了吧。。。
就這樣吧~~~
有興趣的朋友可以試著去抓其他板塊的數據。。。
貌似挺easy的。。。
小心別被封了就好了。。。
代碼截止2018-02-25測試無誤。
總結
以上是生活随笔為你收集整理的python 爬虫餐饮行业 数据分析_Python爬取美团美食板块商家数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: c 语言 如何优化cpu占用率,C#程序
- 下一篇: Carte+kettle+mysql性能