【干货】数据集网站汇总!
數(shù)據(jù)查詢網(wǎng)站:
1、企業(yè)產(chǎn)生的用戶數(shù)據(jù)
百度指數(shù):http://index.baidu.com/
阿里指數(shù):https://alizs.taobao.com/
TBI 騰訊瀏覽指數(shù):http://tbi.tencent.com/
新浪微博指數(shù):http://data.weibo.com/index
2 、數(shù)據(jù)平臺購買數(shù)據(jù) :
數(shù)據(jù)堂:http://www.datatang.com/about/about-us.html
國云數(shù)據(jù)市場:http://www.moojnn.com/data-market/
貴陽大數(shù)據(jù)交易所:http://trade.gbdex.com/trade.web/index.jsp
3 、政府/ 機(jī)構(gòu)公開的數(shù)據(jù) :
中華人民共和國國家統(tǒng)計(jì)局?jǐn)?shù)據(jù):http://data.stats.gov.cn/index.htm
世界銀行公開數(shù)據(jù):http://data.worldbank.org.cn/
聯(lián)合國數(shù)據(jù):http://data.un.org/
納斯達(dá)克:http://www.nasdaq.com/zh
4 、 數(shù)據(jù)管理咨詢公司 :
麥肯錫:http://www.mckinsey.com.cn/
埃森哲:https://www.accenture.com/cn-zh/
艾瑞咨詢:http://www.iresearch.com.cn/
簡單通用數(shù)據(jù)集
0、http://data.stats.gov.cn/
不用解釋。
1、data.gov ( https://www.data.gov/ )
這是美國政府公開數(shù)據(jù)的所在地,該站點(diǎn)包含了超過19萬的數(shù)據(jù)點(diǎn)。這些數(shù)據(jù)集不同于氣候、教育、能源、金融和更多領(lǐng)域的數(shù)據(jù)。
2.data.gov.in ( https://data.gov.in/ )
這是印度政府公開數(shù)據(jù)的所在地,通過各種行業(yè)、氣候、醫(yī)療保健等來尋找數(shù)據(jù),你可以在這里找到一些靈感。根據(jù)你居住的國家的不同,你也可以從其他一些網(wǎng)站上瀏覽類似的網(wǎng)站。
3.World Bank( http://data.worldbank.org/ )
世界銀行的開放數(shù)據(jù)。該平臺提供 Open Data Catalog,世界發(fā)展指數(shù),教育指數(shù)等幾個工具。
4.RBI ( https://rbi.org.in/Scripts/Statistics.aspx )
印度儲備銀行提供的數(shù)據(jù)。這包括了貨幣市場操作、收支平衡、銀行使用和一些產(chǎn)品的幾個指標(biāo)。
5.Five Thirty Eight Datasets ( https://github.com/fivethirtyeight/data )
Five Thirty Eight,亦稱作 538,專注與民意調(diào)查分析,政治,經(jīng)濟(jì)與體育的博客。該數(shù)據(jù)集為 Five Thirty Eight Datasets 使用的數(shù)據(jù)集。每個數(shù)據(jù)集包括數(shù)據(jù),解釋數(shù)據(jù)的字典和Five Thirty Eight 文章的鏈接。如果你想學(xué)習(xí)如何創(chuàng)建數(shù)據(jù)故事,沒有比這個更好。
大型數(shù)據(jù)集
1.Amazon Web Services(AWS)datasets
https://aws.amazon.com/cn/datasets/
Amazon提供了一些大數(shù)據(jù)集,可以在他們的平臺上使用,也可以在本地計(jì)算機(jī)上使用。您還可以通過EMR使用EC2和Hadoop來分析云中的數(shù)據(jù)。在亞馬遜上流行的數(shù)據(jù)集包括完整的安然電子郵件數(shù)據(jù)集,Google Books n-gram,NASA NEX 數(shù)據(jù)集,百萬歌曲數(shù)據(jù)集等。
2.Google datasets
https://cloud.google.com/bigquery/public-data/
Google 提供了一些數(shù)據(jù)集作為其 Big Query 工具的一部分。包括 GitHub 公共資料庫的數(shù)據(jù),Hacker News 的所有故事和評論
3.Youtube labeled Video Dataset
https://research.google.com/youtube8m/
預(yù)測建模與機(jī)器學(xué)習(xí)數(shù)據(jù)集
UCI Machine Learning Repository
UCI機(jī)器學(xué)習(xí)庫顯然是最著名的數(shù)據(jù)存儲庫。如果您正在尋找與機(jī)器學(xué)習(xí)存儲庫相關(guān)的數(shù)據(jù)集,通常是首選的地方。這些數(shù)據(jù)集包括了各種各樣的數(shù)據(jù)集,從像Iris和泰坦尼克這樣的流行數(shù)據(jù)集到最近的貢獻(xiàn),比如空氣質(zhì)量和GPS軌跡。存儲庫包含超過350個與域名類似的數(shù)據(jù)集(分類/回歸)。您可以使用這些過濾器來確定您需要的數(shù)據(jù)集。
2.Kaggle
https://www.kaggle.com/datasets
Kaggle提出了一個平臺,人們可以貢獻(xiàn)數(shù)據(jù)集,其他社區(qū)成員可以投票并運(yùn)行內(nèi)核/腳本。他們總共有超過350個數(shù)據(jù)集——有超過200個特征數(shù)據(jù)集。雖然一些最初的數(shù)據(jù)集通常出現(xiàn)在其他地方,但我在平臺上看到了一些有趣的數(shù)據(jù)集,而不是在其他地方出現(xiàn)。與新的數(shù)據(jù)集一起,界面的另一個好處是,您可以在相同的界面上看到來自社區(qū)成員的腳本和問題。
3.Analytics Vidhya
https://datahack.analyticsvidhya.com/contest/all/
您可以從我們的實(shí)踐問題和黑客馬拉松問題中參與和下載數(shù)據(jù)集。問題數(shù)據(jù)集基于真實(shí)的行業(yè)問題,并且相對較小,因?yàn)樗鼈円馕吨? - 7天的黑客馬拉松。
4.Quandl
https://www.quandl.com/
Quandl 通過起網(wǎng)站、API 或一些工具的直接集成提供了不同來源的財(cái)務(wù)、經(jīng)濟(jì)和替代數(shù)據(jù)。他們的數(shù)據(jù)集分為開放和付費(fèi)。所有開放數(shù)據(jù)集為免費(fèi),但高級數(shù)據(jù)集需要付費(fèi)。通過搜索仍然可以在平臺上找到優(yōu)質(zhì)數(shù)據(jù)集。例如,來自印度的證券交易所數(shù)據(jù)是免費(fèi)的。
5.Past KDD Cups
( http://www.kdd.org/kdd-cup )
KDD Cup 是 ACM Special Interest Group 組織的年度數(shù)據(jù)挖掘和知識發(fā)現(xiàn)競賽。
圖像分類數(shù)據(jù)集
1.The MNIST Database
( http://yann.lecun.com/exdb/mnist/ )
最流行的圖像識別數(shù)據(jù)集,使用手寫數(shù)字。它包括6萬個示例和1萬個示例的測試集。這通常是第一個進(jìn)行圖像識別的數(shù)據(jù)集。
2.Chars74K
(http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/ )
這里是下一階段的進(jìn)化,如果你已經(jīng)通過了手寫的數(shù)字。該數(shù)據(jù)集包括自然圖像中的字符識別。數(shù)據(jù)集包含74,000個圖像,因此數(shù)據(jù)集的名稱。
3.Frontal Face Images
(http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html )
如果你已經(jīng)完成了前兩個項(xiàng)目,并且能夠識別數(shù)字和字符,這是圖像識別中的下一個挑戰(zhàn)級別——正面人臉圖像。這些圖像是由CMU & MIT收集的,排列在四個文件夾中。
4.ImageNet
( http://image-net.org/ )
現(xiàn)在是時(shí)候構(gòu)建一些通用的東西了。根據(jù)WordNet層次結(jié)構(gòu)組織的圖像數(shù)據(jù)庫(目前僅為名詞)。層次結(jié)構(gòu)的每個節(jié)點(diǎn)都由數(shù)百個圖像描述。目前,該集合平均每個節(jié)點(diǎn)有超過500個圖像(而且還在增加)。
文本分類數(shù)據(jù)集
1.Spam – Non Spam
(http://www.esp.uem.es/jmgomez/smsspamcorpus/)
區(qū)分短信是否為垃圾郵件是一個有趣的問題。你需要構(gòu)建一個分類器將短信進(jìn)行分類。
2.Twitter Sentiment Analysis
(http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/)
該數(shù)據(jù)集包含 1578627 個分類推文,每行被標(biāo)記為1的積極情緒,0位負(fù)面情緒。數(shù)據(jù)依次基于 Kaggle 比賽和 Nick Sanders 的分析。
3.Movie Review Data
(http://www.cs.cornell.edu/People/pabo/movie-review-data/)
這個網(wǎng)站提供了一系列的電影評論文件,這些文件標(biāo)注了他們的總體情緒極性(正面或負(fù)面)或主觀評價(jià)(例如,“兩個半明星”)和對其主觀性地位(主觀或客觀)或極性的標(biāo)簽。
推薦引擎數(shù)據(jù)集
1.MovieLens
( https://grouplens.org/ )
MovieLens 是一個幫助人們查找電影的網(wǎng)站。它有成千上萬的注冊用戶。他們進(jìn)行自動內(nèi)容推薦,推薦界面,基于標(biāo)簽的推薦頁面等在線實(shí)驗(yàn)。這些數(shù)據(jù)集可供下載,可用于創(chuàng)建自己的推薦系統(tǒng)。
2.Jester
(http://www.ieor.berkeley.edu/~goldberg/jester-data/)
在線笑話推薦系統(tǒng)。
總結(jié)
以上是生活随笔為你收集整理的【干货】数据集网站汇总!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ThreeJS - 动态更换fbx模型的
- 下一篇: 【开源毕设】一款精美的家校互动APP分享