深度学习常用数据集介绍
數據集大全
- 數據集大全
- 介紹
- 目前接觸到的數據集
- 1. [MNIST](http://yann.lecun.com/exdb/mnist/)
- 2. [CIFAR-10 / CIFAR-100](http://www.cs.toronto.edu/~kriz/cifar.html)
- 3. [ImageNet](http://www.image-net.org/)
- 4. [COCO](https://cocodataset.org/#home)
- 5. [PASCAL VOC](https://pjreddie.com/projects/pascal-voc-dataset-mirror/)
- 6. [Caltech101](http://www.vision.caltech.edu/Image_Datasets/Caltech101/)
- 7. [LFW](http://vis-www.cs.umass.edu/lfw/)
- 8. [fashion-mnist](https://www.kaggle.com/zalando-research/fashionmnist)
- 9. [DIV2K](https://data.vision.ee.ethz.ch/cvl/DIV2K/)
- 10. [Set5]()
- 收藏其他類數據集:
數據集大全
介紹
深度學習的關鍵是訓練。無論是從圖像處理到語音識別,每個問題都有其獨特的細微差別和方法。
但是,你可以從哪里獲得這些數據?現在你看到的很多研究論文都使用專有數據集,而這些數據集通常不會向公眾發布。如果你想學習并應用你新掌握的技能,數據就成為一個問題。
在本文中,我們列出了一些高質量的數據集,每個深度學習愛好者都可以使用并改善改進他們模型的性能。擁有這些數據集將使你成為一名更好的數據科學家,并且你將從中獲得無可估量的價值。我們還收錄了具有最新技術(SOTA)結果的論文,供你瀏覽并改進你的模型。
如何使用這些數據集?
首先要做的事——下載這些數據集,這些數據集的規模很大!所以請確保你有一個快速的互聯網連接。
數據集分為三類——圖像處理、自然語言處理和音頻/語音處理。
讓我們開始我們的數據集之旅吧!
目前接觸到的數據集
1. MNIST
MNIST數據集(Mixed National Institute of Standards and Technology database)是美國國家標準與技術研究院收集整理的大型手寫數字數據庫,包含60,000個示例的訓練集以及10,000個示例的測試集.
你可以在 Yann LeCun的官網下載這套數據集,共四個文件包:
- train-images-idx3-ubyte.gz: 訓練圖片集 (9912422 bytes)
- train-labels-idx1-ubyte.gz: 訓練圖片集的正確標簽 (28881 bytes)
- t10k-images-idx3-ubyte.gz: 測試圖片 (1648877 bytes)
- t10k-labels-idx1-ubyte.gz: 測試圖片的正確標簽 (4542 bytes)
每張圖片包含一個手寫數字。
數據集包含6萬張圖片用于訓練,1萬張用于測試驗證。
圖像數據格式和圖向量
每張圖片表達了[0,9]這是10個數字中的一個,有28X28=784個像素,每個像素根據灰度取整數值[0,255];把每張圖片看作具有784個特征的圖向量,問題就變成:根據D個特征維度,對圖像做K分類的問題,這里D=784,K=10。
各個數字的數據量如下:
MNIST文件格式
圖片images文件,前16個字節,是文件格式和圖片數量、規格的描述;圖片的像素信息從第17個字節開始。
[offset] [type] [value] [description]
0000 32 bit integer 0x00000803(2051) magic number 0004 32 bit integer 60000 number of images 0008 32 bit integer 28 number of rows 0012 32 bit integer 28 number of columns 0016 unsigned byte 0 pixel 0017 unsigned byte 0 pixel … xxxx unsigned byte ?? pixel
同樣,標簽labels文件里,前8個字節,是文件格式和標簽數量的描述;而表述正確分類的標簽信息,從第9個字節開始。
[offset] [type] [value] [description]
0000 32 bit integer 0x00000801(2049) magic number 0004 32 bit integer 60000 number of items 0008 unsigned byte 7 label 0009 unsigned byte 2 label … xxxx unsigned byte ?? label
理解了文件格式,就可以很容易地讀取MNIST數據。
Ref:
2. CIFAR-10 / CIFAR-100
CIFAR-10 數據集由 10 個類的 60000 個 32x32 彩色圖像組成,每個類有 6000 個圖像。有 50000 個訓練圖像和 10000 個測試圖像。
數據集分為 5 個訓練批次和 1 個測試批次,每個批次有 10000 個圖像。測試批次包含來自每個類別的恰好 1000 個隨機選擇的圖像。訓練批次以隨機順序包含剩余圖像,但由于一些批次可能包含來自一個類別的圖像比另一個更多,因此總體來說,5 個訓練集之和包含來自每個類的正好 5000 張圖像。
這 10 類都是彼此獨立的,不會相互重疊,因此是多分類單標簽問題。
3. ImageNet
miniImageNet和omniglot數據集在元學習和小樣本學習領域應用廣泛,但是網絡上鮮有對miniImageNet數據集的介紹,因此在這里我對這個數據集做了一個簡要的介紹。
ImageNet簡介
miniImageNet數據集節選自ImageNet數據集。ImageNet是一個非常有名的大型視覺數據集,它的建立旨在促進視覺識別研究。訓練ImageNet數據集需要消耗大量的計算資源。ImageNet為超過1400萬張圖像進行了注釋,而且給至少100萬張圖像提供了邊框。
ImageNet包含2萬多個類別,比如:“氣球”、“輪胎”和“狗”等類別,ImageNet的每個類別均有不少于500張圖像。
訓練這么多圖像需要消耗大量的資源,因此在2016年google DeepMind團隊Oriol Vinyals等人在ImageNet的基礎上提取出了miniImageNet數據集。
來源
DeepMind團隊首次將miniImageNet數據集用于小樣本學習研究,從此miniImageNet成為了元學習和小樣本領域的基準數據集。
DeepMind的那篇小樣本學習的論文就是大名鼎鼎的Matching Network的來源: Matching Networks for One Shot Learning 。
miniImageNet包含100類共60000張彩色圖片,其中每類有600個樣本,每張圖片的規格為84×84。通常而言,這個數據集的訓練集和測試集的類別劃分為:80:20。相比于CIFAR10數據集,miniImageNet數據集更加復雜,但更適合進行原型設計和實驗研究。
數據集架構
mini-imagenet一共有2.86GB,文件架構如下:
數據集中圖片示例:
Ref
4. COCO
5. PASCAL VOC
VOC:visual object classes
此數據集可以用于圖像分類、目標檢測、圖像分割。
該挑戰的主要目的是識別真實場景中一些類別的物體。在該挑戰中,這是一個監督學習的問題,訓練集以帶標簽的圖片的形式給出。這些物體包括20類:
- Person: person;
- Animal: bird, cat, cow, dog, horse, sheep;
- Vehicle: aeroplane, bicycle, boat, bus,car, motorbike, train;
- Indoor: bottle, chair, dining table, pottedplant, sofa, tv/monitor;
- 訓練集由一套圖像組成:每個圖像擁有一個對應的標注文件,給出了圖像中出現的物體的bounding box和class label,該物體屬于上述20類中的某一類。
- 同一張圖像中,可能出現屬于多個類別的多個物體。
- 所有的標注圖片都有Detection需要的label,但只有部分數據有Segmentation Label。
- VOC2007中包含9963張標注過的圖片, 由train/val/test三部分組成, 共標注出24,640個物體。
- VOC2007的test數據label已經公布, 之后的沒有公布(只有圖片,沒有label)。
- 對于檢測任務,VOC2012的trainval/test包含08-11年的所有對應圖片。 train/val有11540張圖片共27450個物體。
- 對于分割任務, VOC2012的trainval包含07-11年的所有對應圖片, test只包含08-11。train/val有 2913張圖片共6929個物體。
- 這些圖像中的一部分圖像還擁有像素級的標注,用于segmentation competition。
- 用于action classification的圖片集與用于classification/detection/segmentation的圖片集不相交。它們被部分地標注上了圖像中人的bounding box,參考點和動作。
- 用于person layout taster的圖像,被額外的標注上了人的身體部位(頭、手、腳),其測試集與主任務(classification/detection)的測試集不相交。
- 數據集按1:1的比例被分為訓練(驗證)集和測試集。這兩部分的圖像中類別的分布也大致相等。
Ref
6. Caltech101
7. LFW
8. fashion-mnist
該數據集是 MNIST 數據集的一個替代品,因為 MNIST 手寫數據過于簡單,很多時候體現不出深度神經網絡與傳統機器學習算法之間的差距,所以才出現 fashion-mnist 數據集。
fashion-mnist 數據集也稱潮流數據集,涵蓋了來自 10 種類別的共 7 萬個不同商品的正面圖片,其中有T恤、衛衣、長裙、褲子、鞋子等各種物品,該數據集中的圖像都是 28x28 的灰度圖像,這些圖像分別對應著 10 個類別標簽,整個數據集被分為 6 萬個訓練數據與 1 萬個測試數據??梢钥闯?#xff0c;除了數據內容不同,其他都與 MNIST 數據集相同,簡單來講,可以用于處理 MNIST 數據集的代碼,通常也可以直接用在 fashion-mnist 數據集上。
下載地址:https://github.com/zalandoresearch/fashion-mnist
9. DIV2K
10. Set5
一個公開整理的 Set5 數據集的模型性能:Image Super-Resolution on Set5 - 4x upscaling
另一篇文章:Low-Complexity Single-Image Super-Resolution based on Nonnegative Neighbor Embedding
收藏其他類數據集:
數據集大全:25個深度學習的開放數據
總結
以上是生活随笔為你收集整理的深度学习常用数据集介绍的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 顶级会议介绍
- 下一篇: 【Arduino】按键按下执行不同模式程