资源 | 想进行数据科学项目却没有数据集?26个数据集网站汇总
導讀:如果用一個句子總結學習數據科學的本質,那就是:
學習數據科學的最佳方法就是應用數據科學。
如果你是初學者,那么每完成一個項目你的能力就會大大提高。如果你是有經驗的數據科學從業者,那么你應該懂這個道理。
但是,當我向人們給出這個建議時,他們通常會問:我可以在哪里獲得練習的數據集呢? 他們沒有意識到存在大量開放的數據集可使用。他們沒有意識到通過這些項目,能夠不斷學習,從而促進自己的職業發展。
如果你認為這符合你的情況,那么你來對地方了!本文將列出一些數據集網站、資源的列表,你可以從使用當中的數據來進行自己的 pet project,甚至創造自己的產品。
00 如何使用這些資源?
如何使用這些數據源是沒有限制的。唯一限制你的是創造力和實際應用。
使用它們的最簡單方法是進行數據項目并發布到網上。這不僅可以提高數據和可視化技能,還可以改善你的結構化思維。
另一方面,如果你打算或正在處理基于數據的產品,這些數據集可以通過提供新的輸入數據來增加產品的活力。
我已經將這些資源分類,從簡單,通用和易于處理的數據集,到大型、行業相關的數據集。接著,介紹用于特定目的的數據集:文本挖掘,圖像分類,推薦引擎等。
(友情提示:以下網站均需翻墻)
01 簡單、通用的數據集
1. data.gov ?
( https://www.data.gov/ )
美國政府公開數據。該網站在發布時包含超過 19 萬個數據點。這些數據包括氣候,教育,能源,金融等領域的數據。
2.?data.gov.in?
(?https://data.gov.in/ )
印度政府公開數據。可以查找各行業,氣候,醫療保健等數據。還可以在這里得到一些可視化的靈感。根據所在國家,你也可以從其他幾個網站上查看類似的網站。
3.?World Bank
( http://data.worldbank.org/ ) ?
世界銀行的開放數據。該平臺提供 Open Data Catalog,世界發展指數,教育指數等幾個工具。
?
4.?RBI ?
( https://rbi.org.in/Scripts/Statistics.aspx )
印度儲備銀行提供的數據。包括國際收支,銀行業務和一些產品使用的貨幣市場運作指標。
?
5.?Five Thirty Eight Datasets?
( https://github.com/fivethirtyeight/data )
Five Thirty Eight,亦稱作 538,專注與民意調查分析,政治,經濟與體育的博客。該數據集為 Five Thirty Eight Datasets 使用的數據集。每個數據集包括數據,解釋數據的字典和Five Thirty Eight 文章的鏈接。如果你想學習如何創建數據故事,不能錯過。
02 大型數據集
6.?Amazon Web Services(AWS)datasets
( https://aws.amazon.com/cn/datasets/ )
亞馬遜提供了一些大數據集,可以在他們的平臺或本地計算機上使用。還可以通過 EMR,使用 EC2 和 Hadoop 在云端分析數據。亞馬遜的熱門數據集包括完整的 Enron 電子郵件數據集,Google Books n-gram,NASA NEX 數據集,百萬歌曲數據集等。
7.?Google datasets
( https://cloud.google.com/bigquery/public-data/ )
Google 提供了一些數據集作為其 Big Query 工具的一部分。包括 GitHub 公共資料庫的數據,Hacker News 的所有故事和評論。
8.?Youtube labeled Video Dataset
( https://research.google.com/youtube8m/ )
幾個月前,谷歌研究小組發布了 YouTube 標簽數據集,該數據集由 800 萬個 YouTube 視頻 ID 和 4800 個視覺實體的相關標簽組成。這來自數十億幀的預先計算和最先進的視覺功能。
?
03 預測建模與機器學習數據集
9.?UCI Machine Learning Repository
( https://archive.ics.uci.edu/ml/datasets.html )?
UCI 機器學習存儲庫顯然是最著名的數據存儲庫。如果你正在尋找與機器學習庫相關的數據集,那么這是不可錯過的資源。當中包括各種各樣的數據集,從泰坦尼克號的幸存數據,到最近的空氣質量、GPS 軌跡等待。存儲庫包含超過 350 個數據集,其中包含域名,問題目的(分類/回歸)等標簽。你可以使用這些過濾器來確定需要的數據。
10.?Kaggle?
( https://www.kaggle.com/datasets )?
Kaggle 推出了一個平臺,人們上傳數據集,其他社區成員可以投票并在其上運行腳本。共有 350 多個數據集 ,特征數據集超過 200 個。
11. Analytics Vidhya
(https://datahack.analyticsvidhya.com/contest/all/ )
你可以參與和下載我們的練習問題以及黑客馬拉松問題的數據集。數據集基于現實生活中的行業問題,并且相對較小,因為它們是針對 2-7 天的黑客馬拉松活動。
12. Quandl?
( https://www.quandl.com/ )
Quandl 通過起網站、API 或一些工具的直接集成提供了不同來源的財務、經濟和替代數據。他們的數據集分為開放和付費。所有開放數據集為免費,但高級數據集需要付費。通過搜索仍然可以在平臺上找到優質數據集。例如,來自印度的證券交易所數據是免費的。
13. Past KDD Cups
( http://www.kdd.org/kdd-cup )
KDD Cup 是 ACM Special Interest Group 組織的年度數據挖掘和知識發現競賽。
14. Driven Data
( https://www.drivendata.org/ )
Driven Data 發現運用數據科學帶來積極社會影響的現實問題。然后,他們為數據科學家組織在線模擬競賽,從而開發出最好的模型來解決這些問題。
04 圖像分類數據集
15.?The MNIST Database?
( http://yann.lecun.com/exdb/mnist/ )
最流行的使用手寫數字的圖像識別的數據集。包括 6 萬個火車示例和一個 1 萬個示例的測試集。這通常是進行圖像識別的第一個數據集。
?
16.?Chars74K?
(http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/ )
如果你已經掌握手寫數字,可以進一步使用該數據集。當中包括自然圖像中的字符識別,包含 74,000 個圖像。?
17. Frontal Face Images?
(http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html )
如果你已經完成了前兩個項目,并且能夠識別數字和字符,那么在圖像識別的下一個挑戰就是正面臉部圖像。這些圖像由 CMU & MIT 收集,并排列在四個文件夾中。
18. ImageNet?
( http://image-net.org/ )
是時候構建一些通用的東西了。根據 WordNet 層次的圖像數據庫(目前僅為名詞)。層次結構的每個節點都被描述為數百個圖像。目前,這個集合平均每個節點有超過 500 個圖像,并且在增加中。
05 文本分類數據集
19. Spam – Non Spam?
(http://www.esp.uem.es/jmgomez/smsspamcorpus/)
區分短信是否為垃圾郵件是一個有趣的問題。你需要構建一個分類器將短信進行分類。
?
20. Twitter Sentiment Analysis
(http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/)
該數據集包含 1578627 個分類推文,每行被標記為1的積極情緒,0位負面情緒。數據依次基于 Kaggle 比賽和 Nick Sanders 的分析。
?
21.?Movie Review Data
(http://www.cs.cornell.edu/People/pabo/movie-review-data/)
本網站提供電影評論文件的集合,標注其總體情緒極性(正面或負面)和主觀評分(例如“兩星半”)等。
06 推薦引擎的數據集
22. MovieLens??
( https://grouplens.org/ )
MovieLens 是一個幫助人們查找電影的網站。它有成千上萬的注冊用戶。他們進行自動內容推薦,推薦界面,基于標簽的推薦頁面等在線實驗。這些數據集可供下載,可用于創建自己的推薦系統。
?
23. Jester??
(http://www.ieor.berkeley.edu/~goldberg/jester-data/)
在線笑話推薦系統。
07 來自各種來源的數據集網站
24. KDNuggets?
(http://www.kdnuggets.com/datasets/index.html)
KDNuggets 的數據集頁面一直是人們搜索數據集的參考。列表全面,但是某些來源不再提供數據集。因此,需要謹慎選擇數據集和來源。
?
25. Awesome Public Datasets?
(https://github.com/caesar0301/awesome-public-datasets)
具有按域分類的數據集列表的 GitHub 存儲庫。數據集被整齊地劃分在不同的領域,然而沒有關于存儲庫本身的數據集的描述
?
26.?Reddit Datasets Subreddit
(https://www.reddit.com/r/datasets/)
由于這是一個社區驅動的論壇,可能與之前的兩個數據源相比會一些混亂。但是,你可以根據熱度和投票來對數據集進行排序,以查看最流行的數據集。另外,它還有一些有趣的數據集和討論。
結語
我希望這份資源清單對那些想做項目的人有所幫助。這絕對是一個金礦。
原作者:Kunal Jain
編譯:Mika
來源:CDA數據分析師(ID:cdacdacda)
原文:
https://www.analyticsvidhya.com/blog/2016/11/25-websites-to-find-datasets-for-data-science-projects/
推薦閱讀
日本老爺爺堅持17年用Excel作畫,我可能用了假的Excel···
看完此文再不懂區塊鏈算我輸:手把手教你用Python從零開始創建區塊鏈
為什么要學數學?因為這是一場戰略性的投資
180頁PPT,講解人工智能技術與產業發展
Q:?你平時都通過哪些途徑獲取數據?
歡迎留言與大家分享
覺得不錯,請把這篇文章分享給你的朋友
轉載 / 投稿請聯系:baiyu@hzbook.com
更多精彩文章,請在公眾號后臺點擊“歷史文章”查看
總結
以上是生活随笔為你收集整理的资源 | 想进行数据科学项目却没有数据集?26个数据集网站汇总的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux内核start_kernel分
- 下一篇: makefile之自动推倒(2)