R-CNN算法学习(步骤二:特征提取)
R-CNN算法學習(步驟二:特征提取)
寫完步驟一(候選區域生成),現在來做步驟二,也就是特征提取,話不多說,請看正文!
摘自知乎:https://zhuanlan.zhihu.com/p/23006190
CNN特征提取:
1.算法實現
a、網絡結構設計階段
網絡架構兩個可選方案:
- 經典的Alexne(精度為58.5%)
- VGG16(精度為66%)
VGG模型特點是:選擇比較小的卷積核、跨步較小,該網絡的精度高,但計算量是Alexnet的7倍
為了簡單起見,就直接選用Alexnet進行講解:
Alexnet特征提取部分包含了5個卷積層、2個全連接層,在Alexnet中p5層神經元個數為9216、 f6、f7的神經元個數都是4096
通過這個網絡訓練完畢后,最后提取特征每個輸入候選框圖片都能得到一個4096維的特征向量。
b、網絡有監督預訓練階段 (圖片數據庫:ImageNet ILSVC )
參數初始化部分:物體檢測的一個難點在于,物體標簽訓練數據少,如果要直接采用隨機初始化CNN參數的方法,那么目前的訓練數據量是遠遠不夠的。
這種情況下,最好的是采用某些方法,把參數初始化了,然后在進行有監督的參數微調,這里文獻采用的是有監督的預訓練。所以paper在設計網絡結構的時候,是直接用Alexnet的網絡,然后連參數也是直接采用它的參數,作為初始的參數值,然后再fine-tuning訓練。
網絡優化求解時采用隨機梯度下降法(SGD),學習率大小為0.001;
C、fine-tuning階段 (圖片數據庫: PASCAL VOC)
接著采用 selective search 搜索出來的候選框 (PASCAL VOC 數據庫中的圖片) 繼續對上面預訓練的CNN模型進行fine-tuning訓練。
假設要檢測的物體類別有N類,那么我們就需要把上面預訓練階段的CNN模型的最后一層給替換掉,替換成N+1個輸出的神經元(加1,表示還有一個背景) (20 + 1bg = 21),然后這一層直接采用參數隨機初始化的方法,其它網絡層的參數不變;接著就可以開始繼續SGD訓練了。開始的時候,SGD學習率選擇0.001,在每次訓練的時候,我們batch size大小選擇128,其中32個是正樣本、96個是負樣本。
關于正負樣本問題:
一張照片可得到了2000個候選框。
然而人工標注的數據一張圖片中就只標注了正確的bounding box,我們搜索出來的2000個矩形框也不可能會出現一個與人工標注完全匹配的候選框。
因此在CNN階段我們需要用IOU為2000個bounding box打標簽。如果用selective search挑選出來的候選框與物體的人工標注矩形框(PASCAL VOC的圖片都有人工標注)的重疊區域IoU大于0.5,那么我們就把這個候選框標注成物體類別(正樣本),否則我們就把它當做背景類別(負樣本)。
(備注: 如果不針對特定任務進行fine-tuning,而是把CNN當做特征提取器,卷積層所學到的特征其實就是基礎的共享特征提取層,就類似于SIFT算法一樣,可以用于提取各種圖片的特征,而f6、f7所學習到的特征是用于針對特定任務的特征。打個比方:對于人臉性別識別來說,一個CNN模型前面的卷積層所學習到的特征就類似于學習人臉共性特征,然后全連接層所學習的特征就是針對性別分類的特征了)
2.、疑惑點:
CNN訓練的時候,本來就是對bounding box的物體進行識別分類訓練,在訓練的時候最后一層softmax就是分類層。那么為什么作者閑著沒事干要先用CNN做特征提取(提取fc7層數據),然后再把提取的特征用于訓練svm分類器?
這個是因為svm訓練和cnn訓練過程的正負樣本定義方式各有不同,導致最后采用CNN softmax輸出比采用svm精度還低。事情是這樣的,cnn在訓練的時候,對訓練數據做了比較寬松的標注,比如一個bounding box可能只包含物體的一部分,那么我也把它標注為正樣本,用于訓練cnn;采用這個方法的主要原因在于因為CNN容易過擬合,所以需要大量的訓練數據,所以在CNN訓練階段我們是對Bounding box的位置限制條件限制的比較松(IOU只要大于0.5都被標注為正樣本了);然而svm訓練的時候,因為svm適用于少樣本訓練,所以對于訓練樣本數據的IOU要求比較嚴格,我們只有當bounding box把整個物體都包含進去了,我們才把它標注為物體類別,然后訓練svm。
總結
以上是生活随笔為你收集整理的R-CNN算法学习(步骤二:特征提取)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C语言 ,嵌入式 ,c++,数据结构 面
- 下一篇: tcp的滑动窗口