【数据】深度学习从“数据集”开始
從今天開始增加一個新板塊,數據集介紹
言有三
畢業于中國科學院,計算機視覺方向從業者,有三工作室,有三AI學院等創始人
作者 | 言有三(微信號Longlongtogo)
編輯 | 言有三
數據是深度學習的輸入,很重要而又容易被人忽視,而且缺乏系統性的介紹資料,從這個板塊開始,我們來給大家系統性的介紹深度學習中的數據集。
從最常用的數據集開始到各個子任務領域中使用的數據集,對于輕視數據的朋友,請關注大佬們早期都在做什么。
今天說5個最常用的,他們對于深度學習網絡的發展,通用的分類/分割/檢測任務的評測具有其他數據集不可比擬的作用。
01
mnist【1】
數據集鏈接:http://yann.lecun.com/exdb/mnist/,發布于1998年。
如果說LeNet-5是深度學習的hello world,那么mnist就是深度學習數據集里的“hello world”,看看文【1】的作者,Yann Lecun,Y.Bengio,Patrick Haffner就知道了。
如果你想了解早期學者們對gradient-based learning(基于梯度的學習方法)方法的一點努力,想了解為什么卷積神經網絡需要local reception field(局部感受野),需要sub-sample(下采樣),需要shared weights(共享權重)不妨細讀這篇40多頁的論文,不只是LeNet-5這個網絡,更是一個完整的系統的描述。
mnist是一個手寫數字的數據集,來自美國國家標準與技術研究所(National Institute of Standards and Technology),簡稱 NIST。樣本來自250個不同人的手寫數字, 其中50%是高中學生,50%是人口普查局的工作人員。數字從0~9,圖片大小是28*28,訓練數據集包含 60000個樣本,測試數據集包含10000個樣本,示例圖如下。
數據集由Chris Burges和Corinna Cortes搜集,他們裁剪出數字,將其放在20x20像素的框中,并保持了長寬比率,然后放在28*28的背景中,這也是Lecun提供給我們的數據集版本,數字的重心在圖的正中間。
原來20*20的數字是二值圖,在經過插值后放在28*28的背景下成了灰度圖。在LeNet5中使用的輸入是32*32,遠大于數字本身尺度最大值,也就是20*20。這是因為對于分類來說潛在的重要的筆觸信息,需要在最高層的檢測子的感受野中心,而LeNet-5經歷了兩個5*5的卷積,并且沒有padding操作,最后卷積層的featuremap大小10*10正好能夠覆蓋原圖正中間20*20的區域。
02
cifar10和cifar100【2】
數據集鏈接:http://www.cs.toronto.edu/~kriz/cifar.html,發布于2009年。
cifar數據集由Alex Krizhevsky, Vinod Nair, and Geoffrey Hinton等人收集。這里的Alex Krizhevsky正是alexnet那個“alex”,這個hinton就不用說了,你看大牛們誰還沒倒過數據,而現在很多學生還不愿意整理數據。
cifar數據集包含兩個,一個是cifar10,一個是cifar100。??
mnist數據集有幾個缺陷(1)只是灰度圖像(2)類別少,只是手寫數字(3)并非真實數據,沒有真實數據的局部統計特性
所以將mnist用于評估越來越深的神經網絡當然不再恰當,因此需要更大的真實的彩色數據集,需要更好的多樣性。
cifar10被適時地整理出來,這也是一個只用于分類的數據集,是tiny數據集的子集。后者是通過選取wordnet中的關鍵詞,從google,flick等搜索引擎中爬取,去重得來。
數據集共有60000張彩色圖像,圖像大小是32*32,共10個類,每類6000張圖。其中50000張組成訓練集合,每一類均等,都是5000張圖。另外10000為測試集合,每一類也是均等,各1000張。
cifar10里的圖片滿足一些基本的要求(1)都是真實圖片而不是手稿等(2)圖中只有一個主體目標(3)可以有部分遮擋,但是必須可辨識,這可以成為我們以后整理數據集的參考。
可以看出,cifar10有點類似于類別多樣性得到了擴充的mnist的彩色增強版,圖像大小差不多,數據集大小也一樣,類別也相等。
如上圖,10個類別分別是airplane,automobile,bird,cat,deer,dog,frog,horse,ship,truck,其中airplane,automobile,ship,truck都是交通工具,bird,cat,deer,dog,frog,horse都是動物,可以認為是兩個大的品類。而交通工具內部,動物內部,都是完全不同的物種,這些都是語義上完全可以區分的對象,所以cifar10的分類任務,可以看作是一個跨物種語義級別的圖像分類問題。類間方差大,類內方差小。
cifar100數據集則包含100小類,每小類包含600個圖像,其中有500個訓練圖像和100個測試圖像。與cifar10不同的是,100類被分組為20個大類,而每一個大類,又可以細分為子類,所以每個圖像帶有1個小類的“fine”標簽和1個大類“coarse”標簽。
大類之間,沒有重疊容易區分,但是小類之間,會有一定的相似性,以第一個大類為例;aquatic mammals,就是水生哺乳動物,它包括beaver河貍, dolphin海豚, otter水獺, seal海豹, whale 鯨魚,感受一下差別。
03
PASCAL【3】
數據集鏈接:http://host.robots.ox.ac.uk/pascal/VOC/,初始發布于2005年,至2012年止。
The PASCAL Visual Object Classes (VOC)項目是由Mark Everingham等人牽頭舉辦的比賽,這是一個時間跨度很大的比賽,從2005年到2012年,起初主要用于object detection(目標檢測),最后包含了5個比賽,classification,detection,segmentation,action classification,person layout。
PASCAL是什么呢?即Pattern Analysis, Statistical Modelling and Computational learning,不要用了這么久都不知道這是什么意思。顧名思義,這是一個用于模式分析和統計建模的數據集,包括圖像分類,目標檢測,分割等任務。
2005年,數據集還只有4類,即bicycles, cars, motorbikes, people,共1578張圖片,現在已經沒有人用05年的數據集了。
2007年增加到了20類,如下
圖都是來源于圖片社交網站flickr,總共9,963 張圖,24,640個標注目標。
12年最后一屆比賽將數據增加到11,530張圖,27,450個目標框標注,6,929個分割標注,07年和12年的數據集,各自仍然被廣泛使用。
從07年開始引進了圖像分割的標注和人體布局的標注。
從10年開始引進了行為分類標注。
從07年開始,使用average precision替換掉了ROC曲線下面的AUC(area under curve),提高了評估算子的敏感性,因為在VOC2006很多方法的AUC超過了95%,不好進一步區分算法的能力。此后要想獲得高的指標,必須要在各種recall級別下保證精度,這也就意味著僅以很高精度召回部分樣本的算法評測指標下降,這對于樣本數量不均衡的數據集評測效果更好。
更多詳細評測方法可以精讀手冊和參考文【6】,此處不再詳述。
04
imagenet【4】
數據集鏈接:http://www.image-net.org/,09年李飛飛實驗室發布。
ImageNet是李飛飛實驗室主導的一個項目,目標是構建一個計算機視覺研究的大型數據庫,關鍵詞從WordNet中選取。完整的Imagenet數據集有1400多萬幅圖片,涵蓋2萬多個類別的標注與超過百萬的邊界框的標注,每一個類別大概是500~1000張圖片,標注采用了亞馬遜的眾包平臺,這個平臺之后被用于構建各種數據集。
09年cvpr正式發布了imagenet,此后從10年到17年共舉辦了8屆Large Scale Visual Recognition Challenge(ILSVRC)比賽,包括圖像分類,目標檢測,目標定位單元。
開始的開始,imagenet是一個連經費都申請不到的整理數據的項目,為很多研究者們不恥,但科技公司的競賽熱情以及數據集史無前例的多樣性,讓陷身于過擬合的算法,從數據集本身看到了新的出路,之后的故事大家也就都知道了。?
由于類別多,imagenet不可能像mnist那樣簡單的將所有圖片分成互不相干的10類,而是采用了wordnet中樹形結構的組織方式。
下面展示了從哺乳動物到有胎盤哺乳動物到肉食動物到犬科的到狗到工作中的狗到哈士奇的這樣的不斷精細分的類。
imagenet競賽中使用的是imagenet的一個子類,包括1000類,其中大部分是動物,所以我們常常看到拿動物說事的例子,不是貓就是狗,事實上李飛飛等在整理出imagenet之前,確實有過一些dogs vs cats的數據集,貓狗大戰,不亦樂乎。
雖然我們經常用著imagenet調試出來的模型,不過大部分人未必真的知道imagenet的構建過程和歷史,有興趣的同學應該去了解一下,此處我們也沒法過于詳述了。
05
mircosoft coco【5】
數據集鏈接:http://cocodataset.org/,發布于2014年,MSRA出品必屬精品了。
microsoft coco數據集,可以說就是對標pascal,imagenet數據集出現的,同樣可以用于圖像分類,分割,目標檢測等任務,共30多萬的數據。COCO數據集有91類,以人類4歲小孩能夠辨識為基準。其中82個有超過5000個instance(instance即同一個類不同的個體,比如圖像中不同的人)。
從coco的全稱Common Objects in Context可以看出,這個數據集以場景理解為目標,特別選取比較復雜的日常場景,相比于pascal的建立是為了推進目標檢測任務,coco的建立則是為了推進自然背景下的定位與分割任務,所以圖像中的目標通過非常精確的segmentation掩模進行位置的標定。
數據集的建立動機是研究3個問題(1)non-iconic views(2)
contextual reasoning between objects(3)precise 2D localization。?
第一個問題,要求數據集中的圖像,盡量不要只是包括一個大的目標或者一個空的場景的圖像,而是都有,如下圖中的c而不是a,b。
第二個問題就是場景的覆蓋性,需要廣而且足夠復雜。數據集總共有328,000圖像和2,500,000個label。與ImageNet和sun相比,類別數目更少,但是每一個類別的instance更多,這其實是有利于目標定位任務的,因為多樣性更好。對比PASCAL VOC,COCO則要大的多,有更多類和instance。
第三個問題精確定位,我們可以看下面的instance segmention的標注結果,非常精確,而定位的邊框也是從該掩膜生成,非常準確。
總的來說,coco相對于imagenet和pascal是一個更難的數據集,因此在相關任務上我們也需要多關注比較。
06
總結
好了,這篇作為這個系列的總綱,我們往后會進行任務的分類單獨介紹。很多人天天在用數據集但是從沒有認真看過數據集的構建和背后的動機,希望這個系列能給大家帶來更多理解。
如果你能靜下心來看論文,那么,發送關鍵詞“數據集0”到公眾號,就可以直接獲取下載鏈接。
【1】LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
【2】Krizhevsky A, Hinton G. Learning multiple layers of features from tiny images[R]. Technical report, University of Toronto, 2009.
【3】Everingham M, Van Gool L, Williams C K I, et al. The pascal visual object classes (voc) challenge[J]. International journal of computer vision, 2010, 88(2): 303-338.
【4】Deng J, Dong W, Socher R, et al. Imagenet: A large-scale hierarchical image database[C]//Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on. Ieee, 2009: 248-255.
【5】Lin T Y, Maire M, Belongie S, et al. Microsoft coco: Common objects in context[C]//European conference on computer vision. Springer, Cham, 2014: 740-755.
【6】Davis J, Goadrich M. The relationship between Precision-Recall and ROC curves[C]//Proceedings of the 23rd international conference on Machine learning. ACM, 2006: 233-240.
十月開始,我們有三AI學院開啟了“稷”劃和“濟”劃,幫助想入行以及想取得更多實戰經驗的同學。內容覆蓋從自動駕駛到美顏直播等領域的實戰項目,從圖像基礎到深度學習理論的系統知識,歡迎關注。
有三AI“【濟】劃”,從圖像基礎到深度學習
有三AI“十月【稷】劃”,從自動駕駛到模型優化
如果想加入我們,后臺留言吧
微信
Longlongtogo
公眾號內容
1 圖像基礎|2 深度學習|3 行業信息
往期精選
【總結】這半年,有三AI都做了什么
【技術綜述】閑聊圖像分割這件事兒
【技術綜述】有三說GANs(上)
總結
以上是生活随笔為你收集整理的【数据】深度学习从“数据集”开始的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【模型解读】从“局部连接”回到“全连接”
- 下一篇: 【模型解读】从LeNet到VGG,看卷积