python 赚钱 知乎_爬虫实战:抓取知乎问题 “大学生如何赚到一万元”
最近對賺錢的話題很感興趣,在知乎上關注了很多“賺錢”相關的問題,高質量的有不少,但是夾雜著私貨的也不少。不過知乎的數據比較全,我們完全可以用來做文本分析。
爬蟲的原理我就不細講了,如果大家對爬蟲的原理和相關庫不甚了解,又想快速入門,不妨看看我們這門課。
待爬網址
問題:如何在大學賺到一萬元?
大學里面學費加一年開銷最少就是10000元,所以如何賺到10000 鏈接 https://www.zhihu.com/question/34011097
分析請求
因為我們知道知乎的響應數據都是 json 型網站,所以我們想找到json對應的鏈接規律。F12鍵打開開發者工具,選中XHR,不停地往下滑動頁面,開發者工具Network會不停的閃過很多鏈接。
經過排查我們發現這個鏈接很特殊,點擊進去詳情如下
對應的數據是json格式
里面果然是用戶的回答數據
現在我們將找到的網址復制下來分析分析
我們發現網址中有 34011097 和 offset 兩個參數是可以調整的,分別代表 話題id 和 回答的id 。我們將上面的網址整理一下,設計成網址模板base_url
偽裝請求
我們還要注意的一點是寫爬蟲一般是需要偽裝請求頭headers,而在知乎這種網站,我們可能還需要cookies。我新建了一個 settings.py 文件,用來存放cookies、headers、網址模板base url和question id
數據存儲
接下來我們新建 zhihu.py 用于設計爬蟲邏輯,因為知乎的數據都是json格式,相對于 html 而言json的數據更有層次性更加的干凈。為了保證后續數據分析的可擴展性,我們盡量保存原始。所以這里用到了jsonlines庫用于存儲json數據(以行的方式存儲每個json),如果不熟悉可以把 jsonlines庫:高效率的保存多個python 對象 這篇文章收藏起來。
知乎爬蟲代碼
在 zhihu.py 文件中
程序運行
讀取抓取json數據
這里使用jsonlines庫,該庫以行的方式讀取,得到的是可迭代對象。如果不熟悉可以把 jsonlines庫:高效率的保存多個python對象 這篇文章收藏起來。將其轉化為dataframe類型,這樣我們就可以用pandas庫進行讀取
兩小時視頻課程
精選文章
后臺回復 20190228 ,得本教程項目代碼。
原創不易,如果覺得內容不錯,記得AD、轉發、好看
總結
以上是生活随笔為你收集整理的python 赚钱 知乎_爬虫实战:抓取知乎问题 “大学生如何赚到一万元”的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 排队问题解题思路_高考文科数学是最“拉分
- 下一篇: python多线程gil_Python