100个数据集
在尋找數據集?這里給你準備了100多個最有趣的,從柏拉圖式的愛情到政治競選再到死刑囚犯,應有盡有。
?
個人對“信息時代”這個名詞非常不感冒,就好像隨便來了個人,往過一坐,然后說:“當下的信息已經非常多了,我們該如何形容?我覺得‘信息時代’這個詞不錯。”個人認為這是極度不負責的,沒有創意,命名者太懶了;其次,如此多的數據帶來更多的是處理上的無助和絕望,用“drinking from the firehose” 比喻起來或許更貼切一點。因此,與其叫“信息時代”,我們不妨稱之為“飽和時代”,或者是“泛濫時代”。然而,不管稱之為什么,毫無疑問的是,我們已經被數據淹沒了。這里為大家分享100+最有意思的數據集。無他,在提供數據分析材料的同時,給大家增加一點樂趣。
100+ Most Interesting Data Sets
?
1.?如果你是智力競賽節目Jeopardy的參賽選手,你該如何準備?你可以下載這個數據集——215930個Jeopardy真題。把這個數據集放到記憶系統中,你就是下一個贏家。
2.?想知道被判死刑是什么樣的感受?看看這個數據集——?德克薩斯州將1984年以來每個死刑犯的最后一句放到了網上。借助這些數據,我們可以進行臨刑者的情感分析。
3.?談到監獄,還有很多關于囚犯的信息,如“犯罪史,家庭背景和個人性格,藥物史、酗酒史、治療方案,槍支所有權和使用史、監獄活動,項目,服務”。
4.?想讀他人的郵件么?即使你想,你也沒有那個技術,更沒有哪個膽量去。來看看安然公司的文集數據庫吧。這個數據庫包括來自?150多個使用者的100萬封郵件,大部分郵件來自Enron公司的管理層,以文件夾的形式呈現。
5.?想了解互聯網用戶都關心什么?這個問題不好回答,我們可以先回答一個更簡單的問題:Reddit(新聞網站)用戶都關心什么。有人將?Reddit上250萬個帖子進行了分析,公布到了GitHub上。通過這些數據,我們可以了解用戶對貓的喜愛程度,一個數據是否支持r/circlejerk。
6.?談到貓,還有一個數據集上?10000張有注釋的貓圖片。當我們想訓練機器人消滅除了貓以外的所有生物時,這個數據集會非常有用。
?
7.?如果你對構建金融算法有興趣,或者只是對預測美國最大經濟作物的套利機會感興趣,那你應該看看?這個數據集,該數據集包含了從2010年9月2日到現在的所有大麻價格數據。
8.?哪些人用了哪些藥物?多長時間用一次?
9.?有關象棋比賽的記錄最早可追溯到10世紀,產生于巴格達的歷史學家和一位學者之間博弈。從那以后,記錄象棋比賽中的每一步成為一種傳統——尤其是對于那些有重大意義的比賽,比如兩個強勁的對手之間的勝負之戰。因此,今天的象棋學生們可以借助包含這些比賽記錄的豐富數據集進行象棋學習。“Million Base”或許是世界上最大的象棋比賽數據集,聲稱有220萬條比賽記錄,你可以通過?此鏈接下載該數據集。
10.?說起比賽這個主題,少不了足球,我已經找到了?關于足球比賽、足球運動員、球隊、得分等信息的數據集。如果這些還不夠,你還可以利用S?occermetrics API的python包獲取更多的數據。我想只要教練們想要戰勝對手,這些數據遲早會發揮作用。通常我們說:極客和賭徒區別,就在于極客們通過構建分析模型獲得勝利。
11.?Google已經開放了所有的Google Book字串數據(n-gram)。每個字串實際上是由n個單詞組成的短語,開放的數據集中包括了1-gram到5-gram等不同長度的字串數據。該數據集的建立是“基于1500年到2008年之間出版的520萬冊書籍”。我們可以通過這一數據集來判斷哪些短語被過度使用,哪些短語已經過時,哪些短語面臨被淘汰的危險(友情提醒:有些人甚至已經搶先注冊了clichealert.com域名)。
12.?亞馬遜有大量?開放的數據集(雖說是免費的,但免費只是針對AWS的用戶),該數據集包括了從超過280萬個網頁上抓取的數據。分析抓取的數據,買下有升值空間的網址后,你可以再賣給那些需要做SEO的人,或者你也可以自己用來創建下一個Google。
13.?少數民族的計算機科學跳級考試成績如何??你可以自己查一下然后告訴我。
14.?有一個百萬歌曲(Million Song)數據集,包含了一百多首不同的歌曲,包括“舞曲”。如果配備一個晚會專用的媒體播放機可能會更好,這些數據還適用于聚類算法(比如,自動類型檢測),但我不太確定能起到多大的作用。許多人試過基于這些數據構建推薦算法,包括?Kagglers和?Cornell的一個團隊。一種做法是:按照時間,比如按年分析音樂——70年代、80年代或者90年代(或者找出“模仿-領導“效應,比如一首歌因為風格獨特而流行,還會有很多模仿者)。
15.?說道音樂的數據集,last.fm有大量可用的音樂數據。last.fm從它的36萬用戶那里收集數據,這些數據可能是以“用戶,藝術家,以及歌曲的播放信息”這樣的形式呈現,這時候用聚類算法自動給音樂分類或者構建推薦系統會更好。
16.?我一想起極客,總會聯想到數學和計算機黑客,但是極客遠不止這么簡單。CescRosselló、Ricardo Alberich和Joe Miro描繪出了一個神奇宇宙的“社交網絡圖”,使用?Facebook的社交網絡圖,還可以做一個新的“什么是超級英雄?”測驗。
15.?Yelp有免費的數據子集,包括餐館排名和評論數據。通過挖掘Twitter來獲取你需要的數據,可以讓你擁有可以匹敵Yelp的競爭力。
18.如果你對數據(元數據)中的數據感興趣,你或許也會對Jürgen Schw?rzler感興趣,Jürgen Schw?rzler是Google公共數據團隊中的一名統計學家,他整理出一個排名,記錄下?常被搜索的數據。前5位分別是學校對比、失業、人口、營業稅和工資。
19.?我的讀者中無疑有一些邪惡的天才,當然也存在一些想要拯救世界的英雄。這兩類人可能都會對超級智能機器人感興趣,但是要建造這樣的一個機器人,你必須教會它事實,然而,手動輸入1千萬條事實是一件痛苦的事情。還好,?Freebase為我們減少了工作量,它為我們免費開放的數據集包含了19億條事實。
20.?你或許沒有打算建造一個超級機器人,只要比一般的數學家聰明一點就行。如果是這種情況的話,那你就需要教你的機器人許多數學知識(定義和定理),因此,你可能需要了解一下?Mizar項目,該項目為我們提供了9400條定義和49000條定理。
21.?那我們假設你建造出了這樣的機器“數學家”,它能在證明上為你提供幫助,但那又能怎樣?你還需要一個能和你在更深層次交流的人,一個能對某些抽象的主題進行概括的人。這樣,你就需要給你的機器人“喂”維基百科的數據了,所有?維基百科的數據都是免費開放的。
22.?當你對數學和維基百科都厭倦時(事實上,這些是掙不到錢的),你會決定成為一名軟件工程師。這時,你面臨讓一個對編程沒有基本概念的機器來教你編程的尷尬,在哪能找到相關的數據呢?你可以下載?730萬個StackOverflow問題(這些都是免費的),所以你可以從StackOverflow和StackExchange兩處得到信息來“喂”你的機器(另外還有來自Cross Validated的數據,等等)。
23.?你想過研究一下正真的友誼嗎?(試一下吧,實現你成為社會科學家的愿望)。你了解正真的、柏拉圖式的愛情(像海豚之間的那種感情)嗎?即使暫時還不了解,你也完全可以做到,這要感謝謙虛的作者本人,當然還得感謝Mark Newman,他構建了一個由6?2只海豚組成的親密的社區——New Zealand,遠離偽裝和不信任。
24.?是不是左傾的博客通常會鏈接到其他左傾的博客,而不是右傾的博客?好吧,其實我也不知道,但是這聽起來還是很合理的。要特別感謝LadaAdamic的許可,你可以下?載2005年記錄下的美國政治超鏈接網絡。
25.?誰更友好一些:是爵士樂音樂家還是海豚?你會發現我們應該將之前提到的海豚數據集和Pablo M. Gleiser、Leon Danon的?爵士樂音樂家網絡數據集結合起來分析。
26.?那20世紀30年代的南方婦女和囚犯呢?誰更友好?兄弟會成員和HAM無線電話務員,誰又更友好呢?這些問題都可以用?網絡數據集來解決。
27.?將?海豚與Slashdotters比較,結果又會怎么樣呢?
28.Web2.0網站(比如Reddit)有時候會被用“投票環”這種方式作弊,很多人故意互相投票,而不在乎內容質量。我們經常會想在學術界會不會也出現這樣的情況。Stanford大學有一個在線?Arxiv’s High Energy Physics文獻引用網,你會從中發現類似的現象。
29.?我假設讀者們都非常聰明,但也許你們還想變得更加富有,這樣你就能創建下一個Bill and Melinda Gates基金會,然后拯救世界。那也許你應該開發一些新奇的交易算法。但是,在這種情況下,依據市場歷史數據檢驗一樣你的策略會更好,你可以通過此鏈接獲取市場數據。
30.?公開產品數據( Open Product Data)網站旨在為每個品牌提供免費的條形碼數據。經營理念是:建立一個特別的紋身店,只紋條形碼,但允許客戶選擇他們想要的產品,想想看:“你的條形碼表達的意義是什么?”“這樣的條形碼就像是一種信仰。”
31.?做中期天氣預測的European Center對收集天氣數據情有獨鐘。如果你要問這和天氣有關嗎?其實我主要想談一些我認識到的?關于天氣數據的有趣應用:金融行業。我很尊敬金融,主要是因為有些人做了一些瘋狂的事情。我聽說過中微子的應用實際上是?“因為金融”。你的算法可以解決購買印尼芝麻種子期貨問題嗎?有了天氣數據,也許就可以。
32.?如果你想了解?食物的營養數據,美國農業部可以為你提供數據。你可以開發一個判斷用戶是否類食物過敏的手機APP。然后說服學校給每個學生購買這個APP。
33.?想精通語言,字典必不可少,但談到?單詞數據,沒有什么字典比WordNet更優秀。WordNet側重于語言的結構,這點其它字典無法比擬。
34.?NASA公布了?太陽系以外的行星數據集。買一個飛船,你可以飛到那里建一個秘密基地。
35.?聯邦鐵路管理局有“?關于鐵路事故和意外的安全信息,庫存和穿過的高速公路數據”。一些組織(如紐約時報)可以通過這些數據判斷貧窮地區的人們是否更容易發生火車事故等。
36.?如果你需要關于?圖書的數據,你可以到Open Library下載免費的數據集。
37.?美國的無人機殺害了誰?如果你?對巴基斯坦地區感興趣,你可以查看這個數據集。
38.?如果你想通過自動導入引用數據構建Papers2的競爭對手,你可以使?用CrossRef的元數據查詢。
39.?Mnemosyne是一個虛擬卡片應用,通過間隔重復輔助記憶。幾年來,這個項目一直在搜索用戶數據,現在?gwern公司同意將這些數據免費公開若干月。研究者們可以在這些數據上運行機器學習算法,了解更多關于人類記憶的信息。
40.?婚禮上邀請賈斯丁?比伯要花多少錢??Priceconomics網站列舉了雇傭各種明星的價格。你可以借助這些數據計算流行度和價格的比率。
41.?有些數據集可以更好的預測股市。2011年,?研究員發現他們可以通過分析推特數據預測股市:他們分析與上市?公司相關的推文,然后計算一個“情緒得分”,通過這個得分預測股市。
42.?2014年,Clifford Winston和Fred Mannering指出,美國在車輛交通上每年花費千億。我們可以通過數據集提高交通效率。例如,我們可以通過對歷史交通數據進行算法分析,預測交通擁擠時段、路段。?data.gov網站提供了相關數據。
43.?如果你想開發一個跟蹤實時路況的app,你需要?不同的數據源。
44.?如果你想開發反垃圾軟件服務,或者只是分析通常垃圾郵件的內容,你需要數據。?UCIrvine提供這些數據。
45.?如果你想做反垃圾短信服務,你依舊可以找到?相關數據。
46.?有大量的數據可被R操作,你所需的只是安裝一個包。?Ecdat是其中的一個包,包括大量的計算數據。我還見到過對數學水平和抽煙量關系的分析。
?
47.?有沒有想過一個人會參加多個公司的董事會,比如:Condoleezza Rice(美國前國務卿賴斯)加上和她密切相關的政府監控,或許這對于Dropbox來說不能算是最好的選擇。好吧,有了?這個數據集,你也可以做到,但這只針對挪威——因為該數據集是由挪威的上市公司組成的網絡數據。
48.?有沒有看過:地方政府會根據一個人的社會關系來判斷某人是不是恐怖分子?實際上,?你也可以得到這些數據,分析出恐怖分子的社交網絡。
49.?圍繞維基百科的官僚機構一直存在很大的爭論。如何才能成為一個真正的維基百科大人物?誰才是維基百科最理想的管理者?當然,可以通過投票,?數據可以免費下載。
50.?哈佛大學開放了哈佛大學圖書館持有的“?超過1200萬的材料數據記錄”數據集,包括了書籍、期刊、電子資源、手稿、檔案材料、音頻、視頻等各種形式的資料。
51.?如果你需要為學生提供一個小型數據集,可以看一下?DASL。比如解決這樣一個問題:?由不孕雄性野馬主導野馬群體會不會降低野馬群體的規模?
52.?GET-Evidence已經提供了可下載的?公共基因組。我懷疑Steven Pinker的個人數據也在其中,或許你也可以克隆一個自己。
53.?說到基因組,已經有1000個基因組項目提供了大約260TB可供下載的數據。
54.?在列出的這些數據集中要說什么是最小數據集,?或許就是泰坦尼克號上男性和女性的幸存率,女乘客幸存率是男乘客的四倍。
55.?你想過對食物進行具體細分嗎?如果是,那就恭喜你了,你可以在此處下載?相關數據集(感謝加拿大)。
57.?有一個與前者類似的數據庫,不過記錄是?人體內代謝物的相關數據。我不確定你可以用這些數據做什么,但也許有人可以用這個來進行病毒式營銷——xxx營養之道。?
?
58.?參考能量解集數據集包括大概?500G關于家庭能量使用的數據。我們可以利用這些數據提高家庭能量效率,或者對家庭能量費用消耗進行可視化展示。
59.?開發了一個新的圖像壓縮算法,需要數據進行測試?試試?CSAIL的小圖像數據集。
60.?如果覺得這些圖像太小了,試試?ImageNet數據集。如果你想訓練一個算法識別獨角鯨,可以先用這些數據訓練。
61.?還不夠?試試?維基百科所有的圖片。
62.?假設你在?構建下一代圖書閱讀器,你希望段落可以自動與相應的維基百科文章相關聯。怎么做?斯坦福大學和谷歌研究中心已經搭建了?英文段落映射維基文章的數據庫,你可以下載他們的論文。
63.?俄羅斯搜索引擎Yandex提供了一系列?搜索數據。也就是,如果一個人搜索了關鍵詞,他們會點擊哪些內容?不過,提供的都是俄羅斯人的搜索結果。
64.?人們通常在維基百科上做哪些編輯修訂??也有數據庫是關于這一內容的。
65.?谷歌有一個?面向數據集的搜索引擎,你造么?
66.?Pew研究機構有很多免費的數據集,其中包括他們的?“全球態度項目”數據集。通過這個數據集我們可以了解:世界是否變得越來越進步?隨著時間的推移,人們對宗教的態度是如何變化的?
67.?談到公眾態度隨時間的變化,你可以下載從?1972年到2012年的綜合社會調查數據集,這個數據集也可以回答這兩個問題。
68.?有一個有趣的數學問題叫名人問題,你需要找出一個每個人都認識,但是不認識任何人的人。但生活中真的有名人問題么?試試?雅虎的明星臉集。
69.?需要2009年以來的十億個網頁?需要訓練一個從不停止的語言學習者NELL??是的,你可以做到。
70.?你知不知道你可以?下載Arxiv上所有的PDF?一旦我們可以教會機器自然語言,我們就可以讓計算機閱讀所有文檔為我們提取重點。
71.?如果你需要任何?產業的經濟狀況數據,試試census.gov的行業統計信息。如果經濟狀況不好,你會在數據中找到證據。
72.?你可以下載大量?Usenet帖子的數據。這些數據對某些文本分析項目或機器學習算法(如拼寫檢查)很有用。
73.?Nick Bostrom有一篇很有意思的文章?“預防人類滅絕是頭等大事”。該文章提出,考慮到人類滅絕的危害,再小的滅絕危險都是需要警惕的。通過分析從?公元前2500年到2012年流星撞擊地球記錄,我們可以更好的應對這個問題。
74.?性別和精神疾病對犯罪影響有多大??有數據集是針對這個問題的。
75.?談到精神疾病,如果你想了解精神疾病是如何影響少數民族的,?試試這個數據庫。
76.?現在有很多孤男寡女,其中不乏一些具備卓越分析的人。?試試這個數據集“對比傳統夫婦和不傳統夫婦,美國人是如何遇到他們另一半的”,尋找遇到另一半的最好辦法。?
?
77.?你可以通過此鏈接下載大量所謂的?“青少年健康”的數據,而且還包括了大量關系數據和生物指標數據。
78.?我有一個問題:現代工作與過去工作相比,哪個更糟糕??有五組調查調查了關于不同職業群體對該問題的回答,我已經看到了這樣一篇文章——“我們可以告訴你:昨天是不是比今天更好?”
79.?斯坦福大學有?3500萬條亞馬遜商品評價可供下載。你可以用這個做很多事情:使用它來改善推薦系統的算法,找出評論中是否存在“模仿-領袖”效應(比如:早期的積極評價能否帶來更多的積極評價?)
80.?基于我過去的一些研究,搜索關鍵字?“關于連環殺手的數據集”時發現兩個特點:1)很具體;2)很流行,但我希望這和人的品味沒有太大關系。當然,我找到了相關的數據集,在此特別感謝連環殺手信息中心。
81.?這確實是一個讓人有些毛骨悚然的名字,Maryland大學還有個“全球恐怖主義數據庫”,這是一組由?11.3萬個恐怖事件組成的數據集。你可以在填完表后下載它。可視化這些數據,對一些易受影響的地區進行預測,可以防止恐怖襲擊,建立提前預警系統。
82.?MNIST數據庫是機器學習領域的一個經典。它是由一組帶標簽的手寫字符組成,這對OCR算法來說是必不可少的。如今,一些算法的判斷能力甚至比人類法官還要準確!在將來,我們會要求讓機器來做判決。
83.?UCI為我們提供了?撲克牌數據集。我不擅長玩撲克,但我敢肯定關于撲克一定會有一些有趣的分析可做。我聽說在撲克界人類仍然比機器更有優勢,但我覺得這種說法不太可靠。
84.?UCI的另一個數據集:其中,圖像被簡單的分為廣告和非廣告兩種。基于該數據集可以自動攔截廣告或進行垃圾郵件的檢測,也許還能應用到Google Glass中,過濾掉現實生活中的廣告,那一定是一件很酷的事情。我們看到的將不再是一個廣告牌,而是自然景觀的虛擬擴展。
85.?還記得Star Wars Kid崩潰事件嗎?Attack of the Show將它評為了史上第一病毒視屏。Andy Baio策劃了這一事件,還杜撰了“Star Wars Kid”這一詞,并將他的?服務器日志公開發表。
86.?怎樣知道在Wordpress上誰鏈接到了誰(或者是某物)?可視化網絡是件很了不起的事情,但如果它能揭示一些關于“超節點”的信息,或許會更好,“超節點”是指被許多節點連接或者連接到許多節點的節點(也許兩者都有)。如果你有興趣,?也可以利用這些數據將不同的人歸類。
87.?Obama是更喜歡石油大亨?還是極端環保主義者?或是玉米游說團體?是誰在背后支持Herman Cain?我們已經可以下載到?2012總統競選的財務數據,用來分析哪些行業偏向于哪位候選人想必是也極好的。
88.?哪所私立大學最有價值?
89.?哪所公立大學最有價值?
90.?按州統計的香煙數據。肯塔基州抽的最多,西弗吉尼亞州第二。?鑒于煙草的巨大社會危害,一個不錯的分析也許可以挽救很多人的生命。
?
91.?在2008年12月5日,從Pirate Bay可以下載到什么?
92.?想要構建一個Reddit推薦引擎嗎?(或換個說法會更好——你覺得把那些愚蠢卻流行的意見過濾掉怎么樣?)不錯,用Redditor完全可以做到這一點,Redditor會是個不錯的推薦引擎。
93.?全球健康數據。用這些數據來確定改善世界健康的方法會很有效,像血吸蟲病控制倡議一樣,這一項目被GiveWell列為評價最高的慈善機構之一。
94.?美國從1960年到2012年的犯罪事件。談論犯罪雖然在道德上令人反感,但在電視上節目開個玩笑還是無傷大雅的。
95.?發起一項為浴室中的Yelp運動怎么樣?
96.?你知道在加拿大,雜貨店的暢銷品是卡夫晚餐(aka通心粉和奶酪)嗎?我想知道它在比利時或者臺灣銷售的怎么樣,這里為我們提供了?部分超市的數據。
97.?火狐瀏覽器使用情況的數據。記錄比如選項卡的使用數量,活躍狀態的時間,隱私標簽打開的數目。雖然隱私標簽這一詞或許會讓一些人浮想聯翩,但用來比較互聯網與實際數據之間準確度還是很不錯的。
98.?非常強大的一個數據:Mozilla將Mozilla和Eclipse中發現的?超過20萬個bug放到一個數據集中。我很想看看哪些bug導致的奔潰最常見,以及如何預防這些奔潰,當然也只有參考這些數據,才能設計出更好的編程語言。
99.?如果你對設計調度算法感興趣的話,你會對這一消息感興趣:?Google開放了他們在集群上作業排序的數據集。開發針對數據集的算法可能會幫助未來驗證你的發現。畢竟,明天的桌面系統很可能會像今天數據中心一樣強大。
100.?Techcrunch開放了一個具有超過400 000家公司、投資者和企業家的檔案的數據集,此外還有45,000輪投資記錄,這或許是一個逆向發現市場需求和投資者的投資傾向的好方法。
101.?125萬個delicious.com書簽。
102.?美國主要的軍事設施分布在哪?
103.?誰是H1-B信用卡的接受者?你可能想知道一些國家是否接受信用卡,或者哪些公司接受大部分的信用卡消費。
104.?Twitter用戶很有可能被Hacker News的讀者跟蹤。
105.?這里有?1000年到1903年之間的所有地震數據。將這些數據“喂”給一個神經網絡,也許能看到一些關于地震的預測。
106.?我常常想會不會有人做在線人格測試發現比大多數人更神經質?從很多在線性格測試項目中可以得到?大量可用的數據,將性格測試的答案與大眾的答案進行比較,就可以找出那些比較神經質的人。
107.?臟話表?
總結
- 上一篇: 粉花绣线菊
- 下一篇: php发送gmail,汇总PHPmail