深度学习数据集汇总
幾個重要的數據集匯總:
擴展:https://www.52ml.net/20458.html
1、Mnist
MNIST是一個手寫數字數據庫 :
60000個訓練樣本集 ; 10000個測試樣本集 ; 每個樣本圖像為28*28。以二進制存儲的,不能直接以圖像格式查看,不過很容易找到將其轉換成圖像格式的工具。
最早的深度卷積網絡LeNet便是針對此數據集的,當前主流深度學習框架幾乎無一例外將MNIST數據集的處理作為介紹及入門第一教程,其中Tensorflow關于MNIST的教程非常詳細。
數據集大小:~12MB
下載地址:
http://yann.lecun.com/exdb/mnist/index.html
2、Imagenet
深度學習領域大牛Hinton在2012年發表的論文《ImageNet Classification with Deep Convolutional Neural Networks》在計算機視覺領域帶來了一場“革命”,此論文的工作正是基于Imagenet數據集。
Imagenet數據集有1400多萬幅圖片,涵蓋2萬多個類別;其中有超過百萬的圖片有明確的類別標注和圖像中物體位置的標注,具體信息如下:
1)Total number of non-empty synsets: 21841
2)Total number of images: 14,197,122
3)Number of images with bounding box annotations: 1,034,908
4)Number of synsets with SIFT features: 1000
5)Number of images with SIFT features: 1.2 million
Imagenet數據集是目前深度學習圖像領域應用得非常多的一個領域,關于圖像分類、定位、檢測等研究工作大多基于此數據集展開。Imagenet數據集文檔詳細,在計算機視覺領域研究論文中應用非常廣,幾乎成為了目前深度學習圖像領域算法性能檢驗的“標準”數據集。
與Imagenet數據集對應的有一個享譽全球的“ImageNet國際計算機視覺挑戰賽(ILSVRC)”,以往一般是google、MSRA等大公司奪得冠軍,今年(2016)ILSVRC2016中國團隊包攬全部項目的冠軍。
Imagenet數據集是一個非常優秀的數據集,但是標注難免會有錯誤,幾乎每年都會對錯誤的數據進行修正或是刪除,建議下載最新數據集并關注數據集更新。
數據集大小:~1TB(ILSVRC2016比賽全部數據)
下載地址:
http://www.image-net.org/about-stats
3. CIFAR-10 & CIFAR-100
CIFAR-10包含10個類別,50,000個訓練圖像,彩色圖像大小:32x32,10,000個測試圖像。 (類別:airplane,automobile, bird, cat, deer, dog, frog, horse, ship, truck) (作者:Alex Krizhevsky, Vinod Nair, and Geoffrey Hinton) (數據格式:Python版本、Matlab版本、二進制版本<for C程序>)CIFAR-100與CIFAR-10類似,包含100個類,每類有600張圖片,其中500張用于訓練,100張用于測試;這100個類分組成20個超類。每個圖像有一個"find" label和一個"coarse"label。CIFAR-10包含10個類別,50,000個訓練圖像,彩色圖像大小:32×32,10,000個測試圖像。CIFAR-100與CIFAR-10類似,包含100個類,每類有600張圖片,其中500張用于訓練,100張用于測試;這100個類分組成20個超類。圖像類別均有明確標注。CIFAR對于圖像分類算法測試來說是一個非常不錯的中小規模數據集。數據集大小:~170MB
下載地址:
http://www.cs.toronto.edu/~kriz/cifar.html
4、PASCAL VOC
PASCAL VOC挑戰賽是視覺對象的分類識別和檢測的一個基準測試,提供了檢測算法和學習性能的標準圖像注釋數據集和標準的評估系統。
PASCAL VOC圖片集包括20個目錄:人類;動物(鳥、貓、牛、狗、馬、羊);交通工具(飛機、自行車、船、公共汽車、小轎車、摩托車、火車);室內(瓶子、椅子、餐桌、盆栽植物、沙發、電視)。PASCAL VOC挑戰賽在2012年后便不再舉辦,但其數據集圖像質量好,標注完備,非常適合用來測試算法性能。
數據集大小:~2GB
下載地址:
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html
圖像分類結果及對應的論文
圖像分類結果及應的論文,包含數據集:MNIST、CIFAR-10、CIFAR-100、STL-10、SVHN、ILSVRC2012 task 1 ILSVRC: ImageNet Large Scale Visual Recognition Challenge5. COCO
COCO(Common Objects in Context)是一個新的圖像識別、分割、和字幕數據集,它有如下特點:1)Object segmentation 2)Recognition in Context 3)Multiple objects per image 4)More than 300,000 images 5)More than 2 Million instances 6)80 object categories 7)5 captions per image 8)Keypoints on 100,000 peopleCOCO 2016 Detection Challenge(2016.6.1-2016.9.9)和COCO 2016 Keypoint Challenge(2016.6.1-2016.9.9)已經由Microsoft發起 由ECCV 2016(ECCV:European Conference On Computer Vision )。COCO數據集由微軟贊助,其對于圖像的標注信息不僅有類別、位置信息,還有對圖像的語義文本描述,COCO數據集的開源使得近兩三年來圖像分割語義理解取得了巨大的進展,也幾乎成為了圖像語義理解算法性能評價的“標準”數據集。
Google開源的開源了圖說生成模型show and tell就是在此數據集上測試的,想玩的可以下下來試試哈。
數據集大小:~40GB
下載地址:http://mscoco.org/
6. 3D數據
1)RGB-D People Dataset
2)NYU Hand Pose Dataset code3)Human3.6M (3D Human Pose Dataset)
- 《Iterated Second-Order Label Sensitive Pooling for 3D Human Pose Estimation》7. 人臉Dataset
1)LFW (Labeled Faces in the Wild)
8. Stereo Datasets
2)Middlebury Stereo Datasets
3)KITTI Vision Benchmark Suite
9. 普林斯頓大學人工智能自動駕駛汽車項目
1)Deep Drive
2)Source Code and Data10、Open Image
過去幾年機器學習的發展使得計算機視覺有了快速的進步,系統能夠自動描述圖片,對共享的圖片創造自然語言回應。其中大部分的進展都可歸因于 ImageNet 、COCO這樣的數據集的公開使用。谷歌作為一家偉大的公司,自然也要做出些表示,于是乎就有了Open Image。
Open Image是一個包含~900萬張圖像URL的數據集,里面的圖片通過標簽注釋被分為6000多類。該數據集中的標簽要比ImageNet(1000類)包含更真實生活的實體存在,它足夠讓我們從頭開始訓練深度神經網絡。
谷歌出品,必屬精品!唯一不足的可能就是它只是提供圖片URL,使用起來可能不如直接提供圖片方便。
此數據集,筆者也未使用過,不過google出的東西質量應該還是有保障的。
數據集大小:~1.5GB(不包括圖片)
下載地址:
https://github.com/openimages/dataset
11、Youtubo-8M
Youtube-8M為谷歌開源的視頻數據集,視頻來自youtube,共計8百萬個視頻,總時長50萬小時,4800類。為了保證標簽視頻數據庫的穩定性和質量,谷歌只采用瀏覽量超過1000的公共視頻資源。為了讓受計算機資源所限的研究者和學生也可以用上這一數據庫,谷歌對視頻進行了預處理,并提取了幀級別的特征,提取的特征被壓縮到可以放到一個硬盤中(小于1.5T)。
數據集大小:~1.5TB
下載地址:https://research.google.com/youtube8m/
1.深度學習數據集收集網站
http://deeplearning.net/datasets/**
2、Tiny Images Dataset
http://horatio.cs.nyu.edu/mit/tiny/data/index.html
包含8000萬的32×32圖像,CIFAR-10和CIFAR-100便是從中挑選的。
3、CoPhIR
http://cophir.isti.cnr.it/whatis.html
雅虎發布的超大Flickr數據集,包含1億多張圖片。
4、MirFlickr1M
http://press.liacs.nl/mirflickr/
Flickr數據集中挑選出的100萬圖像集。
5、SBU captioned photo dataset
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/
Flickr的一個子集,包含100萬的圖像集。
6、NUS-WIDE
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm
Flickr中的27萬的圖像集。
7、Large-Scale Image Annotation using Visual Synset(ICCV 2011)
http://cpl.cc.gatech.edu/projects/VisualSynset/
機器標注的一個超大規模數據集,包含2億圖像。
8、SUN dataset
http://people.csail.mit.edu/jxiao/SUN/
包含13萬的圖像的數據集。
9、MSRA-MM
http://research.microsoft.com/en-us/projects/msrammdata/
包含100萬的圖像,23000視頻;微軟亞洲研究院出品,質量應該有保障。
總結
- 上一篇: 运算符,++,--,*,/和%的运用和区
- 下一篇: 可敬可悲硅谷人 科技富豪失乐园