當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

yolo v2原理

發布時間：2023/12/15 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了 yolo v2原理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目標檢測系列文章
yolo v1原理：https://blog.csdn.net/cjnewstar111/article/details/94035842
yolo v2原理：https://blog.csdn.net/cjnewstar111/article/details/94037110
yolo v3原理：https://blog.csdn.net/cjnewstar111/article/details/94037828
SSD原理：https://blog.csdn.net/cjnewstar111/article/details/94038536
FoveaBox：https://blog.csdn.net/cjnewstar111/article/details/94203397
FCOS：https://blog.csdn.net/cjnewstar111/article/details/94021688
FSAF: https://blog.csdn.net/cjnewstar111/article/details/94019687

基本原理：

yolo v2主要是為了解決yolo v1的精度不高，召回率不高的問題

采用了一些策略來達到以上目的

特征提取網絡：

重新設計，使用darknet19，使用BN+Leaky Relu

使用高分辨率進行特征提取網絡的分類訓練

檢測網絡：

擴大S*S（yolo v1中是7*7，v2是13*13）

引入卷積提取anchor機制

對anchor使用聚類統計

對中心點使用直接坐標

多特征圖拼接

每個anchor預測的bounding box都有一組概率分布，而不是yolo v1那樣一個cell才有一組概率分布

網絡結構

darknet19分類網絡與yolo v2檢測網絡：

實現細節

多特征圖拼接的實現

采用reorg層和route層。這里ReorgLayer層就是將26?26?512的張量中26?26切割成4個13?13，然后連接起來，使得原來的512通道變成了2048。route就是concat層，將reorg輸出的和主干網絡輸出的進行通道上的拼接

anchors的含義

anchors的數值，表示的是相對于cell邊長的比例，例如其中一組anchor ： [1.08?? 1.19]，表示的是寬度是cell邊長的1.08倍，高度是cell編程的1.19倍。如下圖所示，假設輸入圖片大小為64*64，最終的feature map為縮小32倍之后的2*2

anchor機制與faster rcnn anchor機制的區別

anchor的確定：

yolo v2但是使用聚類統計的方法，從訓練數據集中自動統計出5類anchor，faster rcnn使用先驗手工設計

中心點位置的表示：

在faster rcnn中，中心位置是使用（預測框中點-anchor中心） / anchor框寬高的方式表示，如下圖所示：

所以作者還是使用了和yolo v1一樣的方法，相對于cell左上角的偏移來表示中點坐標，叫做direct location prediction

loss求解：

基本上是按照yolo v1的loss進行。但是對于寬和高的表示，已經區別于yolov1中的寬高表示，而是使用和RPN網絡的表示方法。預測框的寬高/anchor的寬高，然后取log來表示

數據增強：

保留v1數據增強的策略的同時，增加了圖片180°反轉和多尺度訓練

參考資料：

YOLOV2 論文理解

yolo9000 ： better，faster，stronger

YOLO V2 代碼分析《https://www.cnblogs.com/demian/p/9252038.html》

<https://www.cnblogs.com/demian/p/9252038.html>

<https://zhuanlan.zhihu.com/p/25167153>

總結

以上是生活随笔為你收集整理的yolo v2原理的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

原理
Yolo