yolo v2原理
目標檢測系列文章
yolo v1原理:https://blog.csdn.net/cjnewstar111/article/details/94035842
yolo v2原理:https://blog.csdn.net/cjnewstar111/article/details/94037110
yolo v3原理:https://blog.csdn.net/cjnewstar111/article/details/94037828
SSD原理:https://blog.csdn.net/cjnewstar111/article/details/94038536
FoveaBox:https://blog.csdn.net/cjnewstar111/article/details/94203397
FCOS:https://blog.csdn.net/cjnewstar111/article/details/94021688
FSAF: https://blog.csdn.net/cjnewstar111/article/details/94019687
基本原理:
yolo v2主要是為了解決yolo v1的精度不高,召回率不高的問題
采用了一些策略來達到以上目的
特征提取網絡:
重新設計,使用darknet19,使用BN+Leaky Relu
使用高分辨率進行特征提取網絡的分類訓練
檢測網絡:
擴大S*S(yolo v1中是7*7,v2是13*13)
引入卷積提取anchor機制
對anchor使用聚類統計
對中心點使用直接坐標
多特征圖拼接
每個anchor預測的bounding box都有一組概率分布,而不是yolo v1那樣一個cell才有一組概率分布
?
網絡結構
darknet19分類網絡與yolo v2檢測網絡:
?
實現細節
多特征圖拼接的實現
采用reorg層和route層。這里ReorgLayer層就是將26?26?512的張量中26?26切割成4個13?13,然后連接起來,使得原來的512通道變成了2048。route就是concat層,將reorg輸出的和主干網絡輸出的進行通道上的拼接
anchors的含義
anchors的數值,表示的是相對于cell邊長的比例,例如其中一組anchor : [1.08?? 1.19],表示的是寬度是cell邊長的1.08倍,高度是cell編程的1.19倍。如下圖所示,假設輸入圖片大小為64*64,最終的feature map為縮小32倍之后的2*2
anchor機制與faster rcnn anchor機制的區別
anchor的確定:
yolo v2但是使用聚類統計的方法,從訓練數據集中自動統計出5類anchor,faster rcnn使用先驗手工設計
中心點位置的表示:
在faster rcnn中,中心位置是使用(預測框中點-anchor中心) / anchor框寬高的方式表示,如下圖所示:
所以作者還是使用了和yolo v1一樣的方法,相對于cell左上角的偏移來表示中點坐標,叫做direct location prediction
loss求解:
基本上是按照yolo v1的loss進行。但是對于寬和高的表示,已經區別于yolov1中的寬高表示,而是使用和RPN網絡的表示方法。預測框的寬高/anchor的寬高,然后取log來表示
數據增強:
保留v1數據增強的策略的同時,增加了圖片180°反轉和多尺度訓練
參考資料:
YOLOV2 論文理解
yolo9000 : better,faster,stronger
YOLO V2 代碼分析《https://www.cnblogs.com/demian/p/9252038.html》
<https://www.cnblogs.com/demian/p/9252038.html>
<https://zhuanlan.zhihu.com/p/25167153>
總結
- 上一篇: 山水音响质量如何
- 下一篇: 绝地求生狙击枪在哪刷