程序员都用什么来记录知识_1年前的小五都用 Python 来做什么?
(多圖預(yù)警)
注:這是小五一年前在知乎的回答,當(dāng)時還只有凹凸數(shù)讀一個公眾號,所以很多圖片都會帶有數(shù)讀或者知乎的水印。
作為一個菜鳥數(shù)據(jù)分析師,只會sql+python
業(yè)余時間寫寫文章:用python爬取數(shù)據(jù)→數(shù)據(jù)清洗→數(shù)據(jù)分析→數(shù)據(jù)可視化
詞云鎮(zhèn)樓20190730回來看,前面的文章好水哈哈,大家耐心往下看吧
舉幾個最近用python做的比較有趣的小項目:
分析30萬條微博評論,看畢業(yè)生與翟天臨的愛恨情仇
2019年5月27日凌晨,翟天臨又上了熱搜→被畢業(yè)生罵上的熱搜。為了探索這個有趣的現(xiàn)象和背后的問題,我爬取了翟天臨2月道歉微博下的30萬余條評論。
在這30萬條評論中,有20多萬條集中在3月2日之前,在此階段,粉絲積極控評與吃瓜群眾的嘲諷占大多數(shù)。
3月2日到5月26日,隨著查重標(biāo)準(zhǔn)的發(fā)布,開題、初稿等任務(wù)的進行,開始陸陸續(xù)續(xù)有學(xué)生來到他的微博下發(fā)泄怒火。這時的內(nèi)容,主要分為以下幾種:
上述第二階段中的評論用戶,既不是來吃瓜的,也不是看到熱搜來湊熱鬧的,他們是真正被論文困擾而來宣泄怒火的。因此我們爬取了他們在個人主頁中填寫的學(xué)校信息,發(fā)現(xiàn)以下學(xué)校的學(xué)生吐槽頻次較高,這些學(xué)校很有可能調(diào)整了查重率或者提高了其他通過標(biāo)準(zhǔn)。
評論“睡了嗎”的同學(xué)中,基本集中在半夜11點到凌晨3點的時間段,這時的同學(xué)經(jīng)歷了漫長的改重洗禮,用殘存的力氣也要去問候翟天臨一句。而到了3點以后,怕是連問一句“睡了嗎”的心情都沒有了(因為他肯定睡了)
以上是截取的文章部分,原文鏈接請戳《分析30萬條微博評論,看畢業(yè)生與翟天臨的愛恨情仇》
拆開藥店所有的感冒藥,用數(shù)據(jù)解讀藥品說明書
這篇文章的起因是我感冒了,翻出了家里僅剩半盒的感冒藥,但說明書早已不翼而飛。機智的我在網(wǎng)上藥店里搜到了這款藥品,了解了它的用量和禁忌等。依然心系工作的我正好順勢爬取了康之家網(wǎng)上藥店在售的654種感冒藥的說明書,決定用數(shù)據(jù)解讀一下!
在感冒藥界,要問哪家品牌的種類最多,同仁堂是當(dāng)之無愧的王者,而且這家店是標(biāo)準(zhǔn)中國老字號,只生產(chǎn)中藥類感冒藥。
將中藥與西藥的成份分別進行了匯總,并且繪制成詞云。
工作了之后越發(fā)覺得生個病真是太貴了,不去醫(yī)院光吃藥就要花掉不少毛爺爺,于是看過了說明書的有趣數(shù)據(jù),我們自然而然把目光轉(zhuǎn)向了……價格。我們對比了西藥和中藥,發(fā)現(xiàn)西藥的價格集中在20元左右,而中藥的價格要更低一些,集中在10元左右。
以上是截取的文章部分,原文鏈接請戳:《拆開藥店所有的感冒藥,用數(shù)據(jù)解讀藥品說明書》
素人與歐陽娜娜的vlog之間,相隔的不只是明星光環(huán)
這篇主要是為了研究vlog究竟是“真風(fēng)口”還是“偽風(fēng)口”,我們爬取了國內(nèi)最大原創(chuàng) Vlog 平臺“Vue Vlog”app上的30萬條視頻及其作者的信息。
從整體上看,在Vue Vlog上發(fā)過視頻的用戶中,90后,即20—30歲左右的年輕人,占據(jù)了vlogger的半壁江山。而在各個年齡段,女性都明顯多于男性。相比于男性而言,女性似乎更樂于分享自己的生活。有趣的是,水瓶座在所有vlogger的星座中占比最高,是其他星座的2倍左右。
這里要注明一下,右側(cè)單純是星座的排行,本意是突出顯示一下第一名水瓶座,結(jié)果用的配色是左側(cè)男性的顏色,很容易讓大家誤解是男性且水瓶座排名第一從時長上看,普通用戶的大部分視頻都在1分鐘以內(nèi),而大V集中在3-8分鐘。
我們分析了vlog發(fā)布時間段對平均播放量的影響,發(fā)現(xiàn)在一周當(dāng)中,周五的平均播放量明顯高于其他時間段。
平均播放量最高的時間點則有幾個小高峰。早上起床的8、9點,中午和晚上下班放學(xué)的12點和5點,以及晚上睡覺前的9點左右,都是發(fā)視頻的好時機。而凌晨2-4點由于發(fā)視頻數(shù)量較少,平均播放量也整體較高。
從內(nèi)容類型來看,普通vlogger作品中播放量比較高的多數(shù)具備一些專業(yè)技能,如滑雪和潛水等極限運動,以及攝影、彈唱等個人才藝。
以上是截取的文章部分,原文鏈接請戳:《素人與歐陽娜娜的vlog之間,相隔的不只是明星光環(huán)》
第一批看《復(fù)聯(lián)4》的網(wǎng)友,都在評論區(qū)說了什么?
原文鏈接:《第一批看《復(fù)聯(lián)4》的網(wǎng)友,都在評論區(qū)說了什么?》
爬取了微博、貓眼、知乎、豆瓣的評論或者回答做成了詞云
五一去長沙,到了吃點啥?
在大眾點評的篩選機制中,只能按單項指標(biāo)排序,而智能排序又會把投放廣告的或者新店優(yōu)先排在前面。于是,我們爬取了大眾點評上橘子洲頭附近4312家長沙美食的基礎(chǔ)信息。我們設(shè)定的篩選目標(biāo)湘菜館的要求是:評論人數(shù)超過500,各項評分均在9分以上,人均消費不超過100。
我們又用同樣的方法,篩選出性價比最高的燒烤、火鍋、小龍蝦、臭豆腐、粉面館、飲品……
以上是截取的文章部分,原文鏈接請戳:《五一去長沙,到了吃點啥?》
十張圖告訴你:互聯(lián)網(wǎng)運營狗的生存現(xiàn)狀
我們爬取了實習(xí)僧和拉勾網(wǎng)上共12715條關(guān)于運營的招聘信息,來更好地了解運營狗生存(主要是工資)現(xiàn)狀。
在城市的選擇上,我們發(fā)現(xiàn),北京對于運營實習(xí)生的需求量最大,上海廣州深圳杭州依次遞減。要來運營崗實習(xí),一線城市對你來說,將是機會最多的選擇。
但一線城市的三餐、交通與房租對于實習(xí)生來說,無疑是很大的壓力。因此我們分析了不同地域運營實習(xí)生的日均薪資水平,看看哪些城市的薪水能讓你吃到更好吃的土。
其中日均實習(xí)工資在100-150范圍的崗位,在大部分城市都超過了50%的占比,這也是運營實習(xí)生最可能拿到的工資。而在北上深三地,實習(xí)生拿到“高薪”(日工資超過150元)的可能性明顯高于其他地區(qū)。相對這些城市來講,廣州運營實習(xí)工資低于100的崗位占比較高,在廣州實習(xí)的同學(xué)將有更多進入hard生存模式。
20190730更新,沒想到大家這么支持,那就再更新幾個(每個簡單只放一張圖):
蔡徐坤1億轉(zhuǎn)發(fā)量幕后推手被封,能否動搖飯圈文化?
原文鏈接請戳:《蔡徐坤1億轉(zhuǎn)發(fā)量幕后推手被封,能否動搖飯圈文化?》
290種零食大統(tǒng)計,誰能喚起80、90后的童年回憶?
原文鏈接請戳:《290種零食大統(tǒng)計,誰能喚起80、90后的童年回憶?》
宮崎駿:縱有疾風(fēng)起,人生不言棄。
原文鏈接請戳:《宮崎駿:縱有疾風(fēng)起,人生不言棄。》
中國擼串指北:13萬家燒烤店的吃貨最愛
原文鏈接請戳:《中國擼串指北:13萬家燒烤店的吃貨最愛》
這里面都是小五一年前做的有趣的事,大家更喜歡哪一個呢?
歡迎留言、點贊、分享~~~
總結(jié)
以上是生活随笔為你收集整理的程序员都用什么来记录知识_1年前的小五都用 Python 来做什么?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: iphone5c多少钱啊?
- 下一篇: webservice接口_webserv