用python挖一挖知乎上宅男们最喜欢的1000个妹子
在文章開始前,先來一張圖給大家熱熱身。這里是宅男們最喜歡的妹子中排名前200位的頭像(實際193張圖,部分不規則的圖已被二胖過濾)。排名不分先后哈!快來看看有沒有你們熟悉的面孔。
找到眼熟的人了嗎?說不定你也在里面哦,找到了別忘記點贊哈,文末有福利!!!
二胖相信大家最關心以下兩點:
1. 除了照片外還有什么信息?
——那必須呀,肯定還有干貨。
2. 這些漂亮美眉是怎樣被找出來的呢?
——二胖馬上就給大家解答。
挖取策略
PS:不關心技術和流程的童鞋可以直接跳過這部分看后面的數據分析部分
首先給大家解釋下,二胖是怎么找到這些漂亮美眉的。
先用一張流程圖介紹一下整個流程:[左邊的方框代表操作,右邊的橢圓代表數據]
第一步
人工選擇的初始群體很關鍵,但是并不難。
可以從關注某些問題的相關用戶中抓取目標人群,如問題:女生腿長是什么感覺?或者抓取這些問題下活躍男性用戶關注或點贊的女性。
二胖這里選擇了部分問題和部分男性的關注動態和點贊動態,篩選出了第一批女性群體,也就是上圖中的初始美眉群體(具體選擇了哪些問題和男性用戶二胖就不在這里公布了)。
她們由于某種特殊的關聯或者用戶行為被聚類在了一起,我們可以簡稱她們為相似性用戶。這里二胖找到了2553人作為初始群體,下圖為讀取的redis中的記錄數。
第二步
下面需要抓取所有美眉的男性粉絲的關注關系。
請注意:這里為什么要抓取關注關系,而不是男性粉絲的集合呢?——因為我們要找到“最佳宅男”。
舉個例子:假設初始美眉群體有三個用戶:小美、中美和大美,關注關系如下所示:
男性粉絲的集合是:{1,2,3,4,5}
而關注關系指的是:有幾條線就有幾個關注關系,這里有9個關注關系。
在這一步中,二胖共抓取了219165條關注關系。
第三步
下面需要找出上一步中關注初始女性群體中人數最多的男性粉絲。
這里很容易理解,比如在大美中美小美那張圖里,關注初始女性群體人數最多的男性分別是3>2>=4>1>=5,“最佳宅男”就是3啦。
對上一步中的數據進行排序后,共計男性粉絲人數105379人。
二胖在這里截取了前2106名男性作為“宅男”群體。
悄悄給大家看看排行前10的“宅男們”,“宅男”第一名關注了2000多位初始女性美眉中的858人,快一半了,我只想說,老司機帶帶我。
當然,二胖肯定不能公布他們的信息啦?!鞠聢D中打碼的部分是他們的url_token,即唯一身份標識;后面的數字是他們所關注的初始美眉群體中的美眉數量】
我只能說,排第一的哥們兒,你嚇到我了,賠錢。
第四步
有了這2000多個“宅男”就好辦了,接下來的步驟和上面類似。抓取這些“宅男”關注的女性用戶,同樣按關注關系排序,得到前2000名最受歡迎的美眉:
其中女性關注關系有:344849條。
女性用戶集合中有:66869人。
同樣,悄悄給大家看看排行前十的美眉被多少宅男關注了,二胖已經悄悄地看了這些美眉們的主頁,確實很漂亮,她們的回答中也有特別多的照片
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的用python挖一挖知乎上宅男们最喜欢的1000个妹子的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 怎样快速掌握深度学习TensorFlow
- 下一篇: 从一个骗局谈生活中的基础算法