利用python爬取_在知乎上利用Python爬取了三百万数据!服务器崩了!企业级大项目...
請(qǐng)各位注意:
以下所有分析結(jié)果都基于我抓取到的這300萬用戶的個(gè)人信息,非權(quán)威分析,僅供參考。
數(shù)據(jù)抓取時(shí)間為2017年7月份,用戶數(shù)據(jù)會(huì)隨著時(shí)間推移而變化,所以該報(bào)告具有一定時(shí)效性。
知乎的用戶個(gè)人資料很大程度上是不完整的,因?yàn)橛脩粲袡?quán)只填寫部分信息,所以后面分析的時(shí)候會(huì)篩掉對(duì)應(yīng)指標(biāo)為空的用戶。
藍(lán)色為男生,紅色為女生。具體數(shù)據(jù)為:
男生:1,202,234 人,占 51.55%。
女生:1,129,874 人,占 48.45%。
知乎用戶都是哪里人?
再來看看全國(全球?)都有哪些地方的人在玩知乎:
知乎的職業(yè)分布?
以下顯示知乎主流職業(yè),同樣根據(jù)知乎用戶個(gè)人信息里填寫的職業(yè)為準(zhǔn):
看完了知乎各職業(yè)的性別分布,我們?cè)儆靡粡垷崃D來觀察知乎主流職業(yè)(前五名)在各個(gè)地區(qū)的分布情況,顏色越深,代表該職業(yè)在該地區(qū)的人數(shù)越多:
這里我為了展示方便,去掉了產(chǎn)品經(jīng)理,你只需要知道產(chǎn)品經(jīng)理在各地人數(shù)都是最多的…… 不明白知乎上怎么這么多產(chǎn)品經(jīng)理,可能是為了方便宣傳他們的產(chǎn)品?
知乎的高校用戶
知乎中學(xué)生用戶占很大的比重,我們來看看他們都來自哪些學(xué)校!詞云中字體越大,表示所占比重越大。
我們?cè)倭谐鲈敿?xì)的比重排名:
發(fā)現(xiàn)一個(gè)有意思的現(xiàn)象,各高校大部分都是男生在玩知乎……
再看一下哪些高校在知乎獲得的贊數(shù)最多:
知乎大佬都這么調(diào)皮嗎……
這個(gè)圖似乎不太準(zhǔn),大家忽略就好……
我們?cè)賮砜纯锤鞯貐^(qū)有哪些高校是知乎重度用戶,顏色越深代表該學(xué)校的知乎用戶越多:
我們?cè)賮硪粡堉狈綀D,配合著看:
知乎關(guān)注者最多的100位大V
下圖詞云的字越大,表示關(guān)注者越多,看看有沒有你熟悉的大V 呢?:
同樣我們配合著一張直方圖來看:
知乎回答問題最多的100位大V
這些大V在知乎很活躍…… 下圖詞云文字越大,表示回答問題數(shù)量越多。
具體的排名為:
我們?cè)賮砑由线@幾位用戶在知乎的獲得的贊數(shù),看看“回答問題的數(shù)量”和“獲得的贊數(shù)”之間有沒有什么聯(lián)系:
知乎參加live最多的100位大V
我們?cè)賮砜匆粋€(gè)有意思的統(tǒng)計(jì),知乎參加 live 最多的100位用戶,以及他們最多參加過多少場 live。(live 是知乎推出的一種類似于直播的問答形式,大V開一場 live,分享他所在領(lǐng)域的知識(shí),用戶買門票參與 live,是一種知識(shí)變現(xiàn)的方式)
再來看看他們最多參加過多少場 live:
如有侵權(quán)請(qǐng)聯(lián)系小編刪除哦!
總結(jié)
以上是生活随笔為你收集整理的利用python爬取_在知乎上利用Python爬取了三百万数据!服务器崩了!企业级大项目...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 选中的磁盘具有mbr分区表。在efi_如
- 下一篇: python完全支持面向对象编程_Pyt