當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

R-CNN算法学习（步骤二：特征提取）

發布時間：2023/12/20 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了 R-CNN算法学习（步骤二：特征提取）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

R-CNN算法學習（步驟二：特征提取）

寫完步驟一（候選區域生成），現在來做步驟二，也就是特征提取，話不多說，請看正文！
摘自知乎：https://zhuanlan.zhihu.com/p/23006190

CNN特征提取：

1.算法實現

a、網絡結構設計階段
網絡架構兩個可選方案：

經典的Alexne（精度為58.5%）
VGG16（精度為66%）

VGG模型特點是：選擇比較小的卷積核、跨步較小，該網絡的精度高，但計算量是Alexnet的7倍

為了簡單起見，就直接選用Alexnet進行講解：

Alexnet特征提取部分包含了5個卷積層、2個全連接層，在Alexnet中p5層神經元個數為9216、 f6、f7的神經元個數都是4096

通過這個網絡訓練完畢后，最后提取特征每個輸入候選框圖片都能得到一個4096維的特征向量。

b、網絡有監督預訓練階段（圖片數據庫：ImageNet ILSVC ）

參數初始化部分：物體檢測的一個難點在于，物體標簽訓練數據少，如果要直接采用隨機初始化CNN參數的方法，那么目前的訓練數據量是遠遠不夠的。
這種情況下，最好的是采用某些方法，把參數初始化了，然后在進行有監督的參數微調，這里文獻采用的是有監督的預訓練。所以paper在設計網絡結構的時候，是直接用Alexnet的網絡，然后連參數也是直接采用它的參數，作為初始的參數值，然后再fine-tuning訓練。
網絡優化求解時采用隨機梯度下降法（SGD），學習率大小為0.001；

C、fine-tuning階段（圖片數據庫： PASCAL VOC）

接著采用 selective search 搜索出來的候選框（PASCAL VOC 數據庫中的圖片）繼續對上面預訓練的CNN模型進行fine-tuning訓練。
假設要檢測的物體類別有N類，那么我們就需要把上面預訓練階段的CNN模型的最后一層給替換掉，替換成N+1個輸出的神經元(加1，表示還有一個背景) (20 + 1bg = 21)，然后這一層直接采用參數隨機初始化的方法，其它網絡層的參數不變；接著就可以開始繼續SGD訓練了。開始的時候，SGD學習率選擇0.001，在每次訓練的時候，我們batch size大小選擇128，其中32個是正樣本、96個是負樣本。

關于正負樣本問題：
一張照片可得到了2000個候選框。
然而人工標注的數據一張圖片中就只標注了正確的bounding box，我們搜索出來的2000個矩形框也不可能會出現一個與人工標注完全匹配的候選框。
因此在CNN階段我們需要用IOU為2000個bounding box打標簽。如果用selective search挑選出來的候選框與物體的人工標注矩形框（PASCAL VOC的圖片都有人工標注）的重疊區域IoU大于0.5，那么我們就把這個候選框標注成物體類別（正樣本），否則我們就把它當做背景類別（負樣本）。

（備注：如果不針對特定任務進行fine-tuning，而是把CNN當做特征提取器，卷積層所學到的特征其實就是基礎的共享特征提取層，就類似于SIFT算法一樣，可以用于提取各種圖片的特征，而f6、f7所學習到的特征是用于針對特定任務的特征。打個比方：對于人臉性別識別來說，一個CNN模型前面的卷積層所學習到的特征就類似于學習人臉共性特征，然后全連接層所學習的特征就是針對性別分類的特征了）

2.、疑惑點：
CNN訓練的時候，本來就是對bounding box的物體進行識別分類訓練，在訓練的時候最后一層softmax就是分類層。那么為什么作者閑著沒事干要先用CNN做特征提取（提取fc7層數據），然后再把提取的特征用于訓練svm分類器？

這個是因為svm訓練和cnn訓練過程的正負樣本定義方式各有不同，導致最后采用CNN softmax輸出比采用svm精度還低。事情是這樣的，cnn在訓練的時候，對訓練數據做了比較寬松的標注，比如一個bounding box可能只包含物體的一部分，那么我也把它標注為正樣本，用于訓練cnn；采用這個方法的主要原因在于因為CNN容易過擬合，所以需要大量的訓練數據，所以在CNN訓練階段我們是對Bounding box的位置限制條件限制的比較松(IOU只要大于0.5都被標注為正樣本了)；然而svm訓練的時候，因為svm適用于少樣本訓練，所以對于訓練樣本數據的IOU要求比較嚴格，我們只有當bounding box把整個物體都包含進去了，我們才把它標注為物體類別，然后訓練svm。

總結

以上是生活随笔為你收集整理的R-CNN算法学习（步骤二：特征提取）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： C语言，嵌入式，c++,数据结构面
下一篇： tcp的滑动窗口