當前位置：首頁 > 人工智能 > 目标检测 >内容正文

目标检测

目标检测 YOLOv5网络v6 0版本总结

發布時間：2023/12/31 目标检测 45 豆豆

生活随笔收集整理的這篇文章主要介紹了目标检测 YOLOv5网络v6 0版本总结小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目標檢測 YOLOv5網絡v6.0版本總結

YOLOv5對比YOLOv4

輸入端:在模型訓練階段，提出了Mosaic數據增強、自適應錨框計算、自適應圖片縮放等；
Backbone網絡：融合其它檢測算法的新思路，主要有：Focus結構與CSP結構；
Neck網絡：YOLOv5在BackBone與最后的Head輸出層之間往往會插入了FPN+PAN結構
Head輸出層：輸出層的錨框機制與YOLOv4相同，主要改進了訓練時的損失函數GIOU_Loss和預測框篩選的CIOU_nms

網絡結構

YOLOv5s_5.x
YOLOv5s_6.x

與YOLOv5_5.x相比較，YOLOv5_6.x網絡結構更加精簡：
- Conv(k=6, s=2, p=2)替換Focus模塊，便于導出其他框架
- SPPF模塊替代SPP，并且將SPPF放在backbone最后一層
- backbone中的C3層重復次數從9次減小到6次
- backbone中最后一個C3層引入了shortcut（C3 n=1 True）

從結構圖可以看出網絡分為輸入端、Backbone、Neck、Head輸出端四個部分。YOLOv5包含：YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四種版本，下面以YOLOv5s為例**：**

輸入端：輸入圖像的大小為608*608，該階段通常包含一個圖像預處理階段，即將輸入圖像縮放到網絡的輸入大小，并進行歸一化等操作。在網絡訓練階段，YOLOv5使用**Mosaic數據增強操作提升模型的訓練速度和網絡的精度；并提出了一種自適應錨框計算與自適應圖片縮放**方法。
Backbone網絡：Backbone網絡通常是一些性能優異的分類器網絡，該模塊用來提取一些通用的特征表示。YOLOv5中不僅使用了**CSPDarknet53結構**，而且使用了Focus結構作為基準。
Neck網絡：Neck網絡通常位于Backbone網絡和Head網絡的中間位置，利用它可以進一步提升特征的多樣性及魯棒性。YOLOv5 v6_x用SPPF替換掉了YOLOv5 v5_x的SPP，在計算結果相同的情況下SPPF計算速度比SPP快了兩倍。在PAN結構中引入了CSP結構
Head輸出端：Head用來完成目標檢測結果的輸出。針對不同的檢測算法，輸出端的分支個數不盡相同，通常包含一個分類分支和一個回歸分支。YOLOv4利用GIOU_Loss來代替Smooth L1 Loss函數，從而進一步提升算法的檢測精度。

輸入端

數據增強

Mosaic

將四張圖片拼成一張圖片

Copy paste

將部分目標隨機粘貼到圖片中，前提是數據要有實例分割才可以

Random affine

隨即進行仿射變換，其中包括旋轉、縮放、平移和裁剪

MixUp

將兩張圖按照一定的透明度融合在一起

Albumentations

主要是做些濾波、直方圖均衡化以及改變圖片質量等等

Augment HSV

隨機調整色度，飽和度以及明度。

Random horizontal flip

隨機水平翻轉
自適應錨框計算

YOLO算法中，針對不同的數據集，都會有初始設定長寬的錨框，在網絡訓練中，網絡在初始錨框的基礎上輸出預測框，進而和ground truth進行對比，計算兩者差距，再反向更新迭代網絡參數。

在YOLOv3、YOLOv4中，訓練不同的數據集時，計算初始錨框的值時通過單獨的程序運行的，而YOLOv5中將此功能嵌入到代碼中，每次訓練時，自適應的計算不同訓練集中的最佳錨框值。如果在實際訓練中感覺計算的錨框修效果不是很好，也可以在代碼中將自動計算錨框功能關閉。
自適應圖片縮放

在常用的目標檢測算法中，不同的圖片長寬都不相同，因此常用的方式是將原始圖片統一縮放到一個標準尺寸，再送入檢測網絡中。而YOLOv5中對此做了改進，推理速度得到了37%的提升。具體思路是由于在項目實際使用中，很多圖片的長寬比不同，因此縮放填充后兩邊的黑邊大小都不同，如果填充的太多則會影響推理速度，因此作者在datasets.py的letterbox函數中對此做了修改，對原始圖片自適應的添加最少的黑邊

第一步：計算縮放比例

第二步：計算縮放后的尺寸

第三步：計算河邊填充數值

注意：
填充色為灰色**（114,114,114）或者黑色（0,0,0）**效果都一樣
訓練時采用的是傳統的填充模式，即縮到416*416并沒有采用縮減黑邊的方法，只是才推理時才采用了縮減黑邊的方式，提高了目標檢測的推理速度
為什么np.mod函數的后面用32？因為Yolov5的網絡經過5次下采樣，而2的5次方等于32。所以至少要去掉32的倍數，再進行取余

網絡模塊

yolov5s.yaml參數
- Parameters
  # YOLOv5 🚀 by Ultralytics, GPL-3.0 license# Parameters nc: 80 # number of classes depth_multiple: 0.33 # model depth multiple width_multiple: 0.50 # layer channel multiple anchors:- [10,13, 16,30, 33,23] # P3/8 - [30,61, 62,45, 59,119] # P4/16- [116,90, 156,198, 373,326] # P5/32
  - nc：代表數據集中的類別數目
  - depth_multiple：控制子模塊的數量（depth_multiple * number）僅在number不等于1時啟用
  - width_multiple：控制卷積核的數量（width_multiple*args[0]）主要作用于args中的ch_out
- backbone
  # YOLOv5 v6.0 backbone backbone:# [from, number, module, args][[-1, 1, Conv, [64, 6, 2, 2]], # 0-P1/2[-1, 1, Conv, [128, 3, 2]], # 1-P2/4[-1, 3, C3, [128]],[-1, 1, Conv, [256, 3, 2]], # 3-P3/8[-1, 6, C3, [256]],[-1, 1, Conv, [512, 3, 2]], # 5-P4/16[-1, 9, C3, [512]],[-1, 1, Conv, [1024, 3, 2]], # 7-P5/32[-1, 3, C3, [1024]],[-1, 1, SPPF, [1024, 5]], # 9]
  - from：-n代表是從前n層獲得的輸入
  - number：表示網絡模塊的數目
  - module：表示網絡模塊的名稱，具體細節可以在./models/common.py查看
  - args：表示向不同模塊內傳遞的參數，即[ch_out, kernel, stride, padding, groups]
- head
  # YOLOv5 v6.0 head head:# [from, number, module, args][[-1, 1, Conv, [512, 1, 1]],[-1, 1, nn.Upsample, [None, 2, 'nearest']],[[-1, 6], 1, Concat, [1]], # cat backbone P4[-1, 3, C3, [512, False]], # 13[-1, 1, Conv, [256, 1, 1]],[-1, 1, nn.Upsample, [None, 2, 'nearest']],[[-1, 4], 1, Concat, [1]], # cat backbone P3[-1, 3, C3, [256, False]], # 17 (P3/8-small)[-1, 1, Conv, [256, 3, 2]],[[-1, 14], 1, Concat, [1]], # cat head P4[-1, 3, C3, [512, False]], # 20 (P4/16-medium)[-1, 1, Conv, [512, 3, 2]],[[-1, 10], 1, Concat, [1]], # cat head P5[-1, 3, C3, [1024, False]], # 23 (P5/32-large)[[17, 20, 23], 1, Detect, [nc, anchors]], # Detect(P3, P4, P5)]
Backbone
- Focus模塊
  
  Focus模塊在YOLOv5中在圖片進入backbone前對圖片進行切片。具體操作是在一張圖片中每隔一個像素拿到一個值，類似于鄰近下采樣，這樣就拿到了四張圖片，四張圖片互補，長的差不多，但是沒有信息丟失，這樣W,H通道縮減為原來的一半但是輸入通道擴充了4倍，即拼接起來的圖片相對于原先的RGB三通道模式變成了12個通道，最后將得到的新圖片再經過卷積操作，最終得到了沒有信息丟失情況下的二倍下采樣特征圖。
  
  以yolov5s為例，原始的640 × 640 × 3的圖像輸入Focus結構，采用切片操作，先變成320 × 320 × 12的特征圖，再經過一次卷積操作，最終變成320 × 320 × 32的特征圖。
  
  yolov5作者認為Focus的作用是：減少層數、減少參數量、減少計算量、減少cuda內存占用，在mAP影響很小的情況下，提升推理速度和梯度反向傳播速度。（相較于YOLOv3）作者認為一個Focus層可以抵YOLOv3的3個卷積層。
  
  具體代碼實現：
  class Focus(nn.Module):# Focus wh information into c-spacedef __init__(self, c1, c2, k=1, s=1, p=None, g=1, act=True): # ch_in, ch_out, kernel, stride, padding, groupssuper(Focus, self).__init__()self.conv = Conv(c1 * 4, c2, k, s, p, g, act) # 這里輸入通道變成了4倍def forward(self, x): # x(b,c,w,h) -> y(b,4c,w/2,h/2)return self.conv(torch.cat([x[..., ::2, ::2], x[..., 1::2, ::2], x[..., ::2, 1::2], x[..., 1::2, 1::2]], 1))
- CBS模塊
  
  由Conv+Bn+SiLU激活函數三者組成。是YOLOv5網絡結構中的基礎組件
- BottleNeck模塊
  
  一個標準的BottleNeck模塊是由11conv、33conv、殘差塊組成，該模塊有兩種結構，第一種是帶殘差塊的結構，另外一種是不帶殘差塊僅由11conv和33conv組成的結構。具體結構圖示如下所示。
- CSP1_X模塊→C3_1模塊
  
  CSP1_X：
  
  CSP模塊是基于BottleNeck模塊的基礎上進行改進的模塊。YOLOv4在BackBone網絡中使用了CSP結構，而YOLOv5在BackBone中同樣使用了CSP結構。
  
  以YOLOv5s網絡為例，CSP1_X結構應用于Backbone主干網絡，另一種CSP2_X結構應用于Neck中。
  
  C3_1：
  
  C3模塊用來替換BottleneckCSP模塊，從下圖可以看出C3相對于BottleneckCSP模塊，減少了以一個1*1的conv層，同時撤掉了一個BN層和激活層。結果就是在模型的性能沒有下降的同時，模型參數略微下降，推理時間縮短，mAP有小幅度提升（在COCO數據集上的實驗結果。）下圖所示的ResUnit即為YOLOv5中的bottleneck模塊
- SPP→SPPF模塊
  
  SPP：
  - SPP是將輸入并行通過多個不同大小的MaxPool，然后做進一步融合，能在一定程度上解決目標多尺度問題。
  class SPP(nn.Module):def __init__(self):super().__init__()self.maxpool1 = nn.MaxPool2d(5, 1, padding=2)self.maxpool2 = nn.MaxPool2d(9, 1, padding=4)self.maxpool3 = nn.MaxPool2d(13, 1, padding=6)def forward(self, x):o1 = self.maxpool1(x)o2 = self.maxpool2(x)o3 = self.maxpool3(x)return torch.cat([x, o1, o2, o3], dim=1)
  SPPF：
  - SPPF結構是將輸入串行通過多個5*5大小的MaxPool層。
  class SPPF(nn.Module):def __init__(self):super().__init__()self.maxpool = nn.MaxPool2d(5, 1, padding=2)def forward(self, x):o1 = self.maxpool(x)o2 = self.maxpool(o1)o3 = self.maxpool(o2)return torch.cat([x, o1, o2, o3], dim=1)
  SPP VS SPPF:
  
  對比SPP與SPPF的計算結果以及速度（代碼上將SPPF中最開始和結尾處的1*1卷積層給去掉，只對比含有MaxPool的部分）：
  import time import torch import torch.nn as nnclass SPP(nn.Module):def __init__(self):super().__init__()self.maxpool1 = nn.MaxPool2d(5, 1, padding=2)self.maxpool2 = nn.MaxPool2d(9, 1, padding=4)self.maxpool3 = nn.MaxPool2d(13, 1, padding=6)def forward(self, x):o1 = self.maxpool1(x)o2 = self.maxpool2(x)o3 = self.maxpool3(x)return torch.cat([x, o1, o2, o3], dim=1)class SPPF(nn.Module):def __init__(self):super().__init__()self.maxpool = nn.MaxPool2d(5, 1, padding=2)def forward(self, x):o1 = self.maxpool(x)o2 = self.maxpool(o1)o3 = self.maxpool(o2)return torch.cat([x, o1, o2, o3], dim=1)def main():input_tensor = torch.rand(8, 32, 16, 16)spp = SPP()sppf = SPPF()output1 = spp(input_tensor)output2 = sppf(input_tensor)print(torch.equal(output1, output2))t_start = time.time()for _ in range(100):spp(input_tensor)print(f"spp time: {time.time() - t_start}")t_start = time.time()for _ in range(100):sppf(input_tensor)print(f"sppf time: {time.time() - t_start}")if __name__ == '__main__':main()
  最終輸出結果：
  
  由上圖結果可以看出SPP和SPPF的計算結果一致，但是SPPF運行速度比SPP要快上兩倍多。
Neck
- FPN+PAN
  
  YOLOv5目前的Neck和YOLOv4中一樣都采用了FPN+PAN的結構，但是在YOLOv5剛出來時只使用了FPN結構，后續才加入了PAN結構。這種結合操作FPN層自頂向下傳達強語義特征，而特征金字塔則自底向上傳達強定位特征，兩兩聯手，從不同的主干層對不同的檢測層進行參數聚合
- CSP2_X模塊→C3_2模塊
  
  CSP2：
  
  YOLOv4的Neck結構中采用的都是普通的卷積操作，而在YOLOv5的Neck結構中，采用借鑒CSPNet設計的CSP2結構，增強了網絡特征融合的能力
  
  C3_2：
  
  此處采用的C3與Backbone中的C3模塊略有不同,此處的C3用普通的CBS模塊替代了Backbone中C3的殘差塊
Head輸出端
- Bounding box損失函數
  
  YOLOv5和YOLOv4同樣使用了CIOU_LOSS做Bounding box的損失函數
- nms非極大值抑制
  
  在目標檢測的后處理過程中，針對很多目標框的篩選，通常需要nms操作，因為CIOU_Loss中包含影響因子v，涉及ground truth的信息，而測試推理時，是沒有ground truth的。YOLOv4在DIOU_Loss的基礎上采用DIOU_nms的方式，而YOLOv5則采用了加權nms的方式（CIOU_Loss+DIOU_nms），由下圖可以看出，采用DIOU_Loss，原本被遮擋的摩托車也可以被檢測出來（黃色箭頭部分）

其他細節

BCELoss和BCEWithLogitsLoss

BCELoss和BCEWithLogitsLoss是一組常用的二元交叉熵損失函數，常用于二分類問題。區別在于BCELoss的輸入需要先進行Sigmoid處理，而BCEWithLogitsLoss則是將Sigmoid和BCELoss合成一步，也就是說BCEWithLogitsLoss函數內部自動先對output進行Sigmoid處理，再對output和target進行BCELoss計算。

BCELoss需要將data_input事先sigmoid好才能用，而BCEWithLogitsLoss會幫你sigmoid，如下：(運行結果可以看出兩者的輸出值是一樣的)
input = torch.randn(3)#隨機生成一個輸入，沒有被sigmoid。 target=torch.Tensor([0., 1., 1.]) loss1=nn.BCELoss() loss2=nn.BCEWithLogitsLoss() print("BCELoss:",loss1(torch.sigmoid(input), target))#需要sigmod print("BCEWithLogitsLoss:",loss2(input,target))#不需要sigmoid
損失函數計算

YOLOv5的損失只要由三個部分組成：(λ1,λ2,λ3為平衡系數)下圖中zxy為矩陣維度[3,80,80]

分類損失和定位損失使用二元交叉熵損失函數BCEWithLogitsLoss計算。置信度損失計算使用CIoU函數計算
- Classes Loss：分類損失，采用的是BCE Loss，這里只計算正樣本的分類損失。
  - 網絡對8080網格的每個格子都預測三個預測框，每個預測框的預測信息都包含了N個分類概率。其中N為總類別數，最終會組成一個[38080N]的概率矩陣
  - 為了減少過擬合，且增加訓練的穩定性，通常對獨熱碼標簽做一個平滑操作。如下式，label為獨熱碼中的所有數值，α為平滑系數，取值范圍0~1，通常取0.1
- Objectness Loss：obj損失，采用BCE Loss，這里的obj指的是網絡預測的目標邊界框與ground truth的CIOU。這里計算的是所有樣本的obj損失
  - YOLO之前版本直接對mask矩陣為true的地方賦值1，mask矩陣為false的地方賦值0，mask為true只表示預測框在目標附近，并不一定完美包圍了目標。yolov5改變了做法：對mask為true的位置計算對應預測框與目標框的CIOU，使用CIOU作為該預測框的置信度標簽，當然對mask為false的位置還是直接賦0。這樣標簽值的大小與預測框、目標框的重合度有關，兩框重合度越高則標簽值越大。但是CIOU的取值范圍是-1.5_{1，而置信度標簽的取值范圍是0}1，所以需要對CIOU做一個截斷處理：當CIOU小于0時直接取0值作為標簽。
  - 假設置信度標簽為矩陣L，預測置信度為矩陣P，那么矩陣中每個數值的BCE loss的計算公式如下
  - CIOU Tips
    - CIOU公式
      - 初始版本的YOLOv5：
        
        原論文CIoU損失在實現上做了一點小調整，在求導時a作為常數項不參與梯度更新，只針對v里的w和h分別求導，會得到如下圖式
        
        其中w2+h2通常會由于w或者h太小而造成反向傳播的時候梯度爆炸，所以原作者最初版本的實現如下
        with torch.no_grad():arctan = torch.atan(w2 / h2) - torch.atan(w1 / h1)v = (4 / (math.pi ** 2)) * torch.pow((torch.atan(w2 / h2) - torch.atan(w1 / h1)), 2)S = 1 - ioualpha = v / (S + v)w_temp = 2 * w1ar = (8 / (math.pi ** 2)) * arctan * ((w1 - w_temp) * h1)cious = iou - (u + alpha * ar)
        其中alpha和v均不參與梯度更新，只有ar處直接寫成了求導形式，最后對w,h求導只會剩下h,-w,沒有w2+h2
      - YOLOv5 6v_x
        
        在最新的CIOU實現上改為如下：
        v = (4 / (math.pi ** 2)) * torch.pow((torch.atan(w2 / h2) - torch.atan(w1 / h1)), 2)with torch.no_grad():S = 1 - ioualpha = v / (S + v)cious = iou - (u + alpha * v)cious = torch.clamp(cious,min=-1.0,max = 1.0)
        同樣的alpha不參與參數的梯度更新，只是作為一個常數，但是v的修改已經默認了不對w2+h2問題做額外處理，早期的版本雖然兼顧了w2+h2對最終梯度問題的影響，反向傳播形式沒變，但是正向表達式中的v變了， yolov5由于對wh有做進一步篩選，所以避免了w2+h2過小對梯度的影響。
- Location Loss：定位損失，采用的是CIOU Loss,只計算正樣本的定位損失（IOU、GIOU、DIOU、CIOU）
平衡不同尺度的損失

這里針對三個預測特征層（p3, p4, p5）上的obj損失采用不同的權重，在源碼中，針對預測小目標的預測特征層（p3）采用的權重是4.0，針對預測中等目標的預測特征層（p4）采用的權重是1.0，針對預測大目標的預測特征層（P5）采用的權重是0.4，這個是針對COCO數據集設置的超參數
消除Grid敏感度

在YOLOv4中主要是調整預測目標中心點相對Grid Cell的左上角偏移量。下圖是YOLOv2，v3的計算公式。
- $t_x$ 是網絡預測的目標中心x坐標偏移量（相對于網格的左上角）
- $t_y$ 是網絡預測的目標中心y坐標偏移量（相對于網格的左上角）
- $c_x$ 是對應網格左上角的x坐標
- $c_y$ 是對應網格左上角的y坐標
- $σ\sigma$ 是Sigmoid激活函數，將預測的偏移量限制在 0 到 1 之間，即預測的中心點不會超出對應Grid Cell 區域
調整一：

關于預測目標中心點相對Grid Cell左上角 ( $c_x*$ , $c_y$ ) 偏移量為 $σ(tx)\sigma(t_x)$ ， $σ(tx)\sigma(t_x)$ 。YOLOv4 的作者認為這樣做不太合理，**比如當真實目標中心點非常靠近網格的左上角點（ $σ(tx)\sigma(t_x)$ 和 $σ(ty)\sigma(t_y)$ 應該趨近于 0 ）或者右下角點（ $σ(tx)\sigma(t_x)$ 和 $σ(ty)\sigma(t_y)$ 應該趨近于 1 ）時，網絡的預測值需要負無窮或者正無窮時才能取到，而這種很極端的值網絡一般無法達到。**為了解決這個問題，作者對偏移量進行了縮放從原來的( 0 , 1 ) 縮放到( ?0.5 , 1.5 ) 這樣網絡預測的偏移量就能很方便達到 0 或 1，故最終預測的目標中心點 $b_x$ , $b_y$ 的計算公式為：

下圖是繪制的 $\sigma(x)$ 對應**before曲線和 $\cdot \sigma(x) - 0.5$ 對應after**曲線，很明顯通過引入縮放系數scale以后，y 對x 更敏感了，且偏移的范圍由原來的( 0 , 1 ) 調整到了( ?0.5 , 1.5 )。

調整二：

YOLOv5中除了調整預測Anchor相對Grid Cell左上角 $c_x, c_y)$ 偏移量以外，還調整了預測目標高寬的計算公式，調整后的公式為：

作者的意思是，原來的計算公式并沒有對預測目標寬高做限制，這樣可能出現梯度爆炸，訓練不穩定等問題。下圖是修改前 $y = e^x$ 和修改后 $\cdot \sigma(x))^2$ （相對Anchor寬高的倍率因子）的變化曲線，很明顯調整后倍率因子被限制在( 0 , 4 ) 之間。
匹配正樣本(Build Targets)

YOLOv4中是直接將每個ground truth box與對應的Anchor Templates模板計算IoU，只要IoU
大于設定的閾值就算匹配成功。但在YOLOv5中，作者先去計算每個ground truth box與對應的Anchor Templates模板的高寬比例，即：

$r_w=w_{gt}/w_{at} \\ r_h?=h_{gt?}/h_{at?}$

然后統計這些比例和它們倒數之間的最大值，這里可以理解成計算GT Box和Anchor Templates
分別在寬度以及高度方向的最大差異（當相等的時候比例為1，差異最小）：

$r_w^{max} = max(r_w, 1 / r_w) \\ r_h^{max} = max(r_h, 1 / r_h)$

接著統計 $r_w^{max}$ 和 $r_h^{max}$ 之間的最大值，即寬度和高度方向差異最大的值：

$r^{max} = max(r_w^{max}, r_h^{max})$

如果ground truth box和對應的Anchor Template的 $r^{max}$ 小于閾值anchor_t（在源碼中默認設置為4.0），即ground truth box和對應的Anchor Template的高、寬比例相差不算太大，則將ground truth box分配給該Anchor Template模板。為了方便大家理解，可以看下我畫的圖。假設對某個ground truth box而言，其實只要ground truth box滿足在某個Anchor Template寬和高的 $×0.25\times 0.25$ 倍和 $×4.0\times4.0$ 倍之間就算匹配成功。

剩下的步驟和YOLOv4中一致：
- 將ground truth投影到對應預測特征層上，根據ground truth的中心點定位到對應Cell，注意圖中有三個對應的Cell。因為網絡預測中心點的偏移范圍已經調整到了( ?0.5 , 1.5 ) ，所以按理說只要Grid Cell左上角點距離ground truth中心點在( ?0.5 , 1.5 )范圍內它們對應的Anchor都能回歸到ground truth的位置處。這樣會讓正樣本的數量得到大量的擴充。
- 則這三個Cell對應的AT2和AT3都為正樣本。
還需要注意的是，YOLOv5源碼中擴展Cell時只會往上、下、左、右四個方向擴展，不會往左上、右上、左下、右下方向擴展。下面又給出了一些根據 $GT_x^{center}, GT_y^{center}$ 的位置擴展的一些Cell案例，其中 %1 表示取余并保留小數部分。
標簽平滑（Label Smoothing）

假設分類有兩個，一個是貓一個不是貓，分別用0和1表示。Label smoothing的工作原理是對原來的[0, 1]這種標注做一個改動，假設我們給定Label Smoothing的平滑參數為0.1： [0, 1]*(1-0.1)+0.1/2 = [0.05, 0.95]

可以看到，原來的[0,1]標簽成了[ 0.05 , 0.95 ]了，那么就是說，原來分類準確的時候，p = 1 ，不準確為p = 0。假設為Label Smoothing的平滑參數為?，現在變成了: 分類準確的時候 $p=1?0.5??p=1-0.5*\epsilon$ , 分類不準確時 $p=0.5??p=0.5*\epsilon$ ，也就是說對分類準確做了一點懲罰。

這實際上是一種正則化策略，減少了真實樣本標簽的類別在計算損失函數時的權重，最終起到抑制過擬合的效果。

下圖為使用Label Smoothing的概率分布圖：
IOU、GIOU、DIOU、CIOU
- IOU
  
  IoU就是我們所說的交并比，是目標檢測中最常用的指標，在anchor-based的方法中，他的作用不僅用來確定正樣本和負樣本，還可以用來評價輸出框（predict box）和ground-truth的距離。
  - 它可以反映預測檢測框與真實檢測框的檢測效果
  - 一個很好的特性就是尺度不變性，也就是對尺度不敏感
- GIOU
  
  GIOU：《Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression》
  - GIoU在IoU的基礎上考慮多了非交叉面積比例，如上圖紅色虛線框就是A,B邊框的最小包圍框，灰色斜線面積占整個紅色邊框面積就是非交叉面積占比
  - 對比L2 Loss， IoU和GIoU具有尺度不變性，意味著當目標邊框等比放大時，損失能依舊保持同樣的量級，無需針對大小不同邊框分別處理。
  - 對比IoU Loss， L2和GIoU具有偏離趨勢度量能力，如左下圖，傳統IoU=0時，邊框距離的遠近已經對最終損失都是一樣，但是GIoU隨著兩個邊框距離越遠，表現得越接近-1，換算成損失就是越大，同樣GIoU會驅使模型預測邊框分布于真實邊框的上下左右方向，對斜方向預測結果施加更大損失，如右下圖所示。
  - GIoU的損失值域空間為[0,2]，當完美擬合損失0，當距離無限遠且不交叉時，損失是2
- DIOU
  
  DIoU：《Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression》
  
  DIoU損失在1-IoU的基礎上，增加了中心點距離占比懲罰項，其中懲罰項分子是預測邊框中心點與真實邊框中心點的距離，分母是預測邊框與真實邊框的最小包圍框對角線長，如下圖d和c
  - 對比GIoU Loss， DIoU能更好度量預測邊框和真實邊框的中心點距離和方向，表現如下圖所示，綠色真實邊框，紅色預測邊框，當預測邊框與真實邊框互相包含，或者互相垂直交叉，水平交叉，GIoU會退化成為IoU，從而失去非交叉占比的懲罰項，而DIoU依舊能為模型提供更好的梯度方向
  - 與GIoU Loss一樣， DIoU也具有尺度不變性，意味著當目標邊框等比放大時，損失能依舊保持同樣的量級，無需針對大小不同邊框分別處理
  - 與GIoU損失一樣， DIoU損失值域空間為[0,2]，當完美擬合損失0，當距離無限遠且不交叉時，損失是2
- CIOU
  
  CIoU：《Enhancing Geometric Factors in Model Learning and Inference for Object Detection and InstanceSegmentation》
  
  CIoU損失在DIoU的基礎上，增加了寬高比懲罰項，其中v為真實邊框與預測邊框的寬高比損失， $α\alpha$ 為寬高比損失系數
  - 對比DIoU Loss，當預測邊框和真實邊框的中心點重合， CIoU具有更好的寬高擬合效果，如下圖所示，預測邊框與真實邊框中心點重合， DIoU損失中的中心點距離懲罰項=0， DIoU損失退化成IoU損失，但是此時CIoU仍有寬高比損失懲罰，能進一步調整寬高比例
  - CIoU綜合了IoU的交叉面積占比損失， DIoU的中心點偏移損失，以及自身寬高比損失3種度量優點
多尺度訓練

如果網絡的輸入是416 x 416。那么訓練的時候就會從 0.5 x 416 到 1.5 x 416 中任意取值，但所取的值都是32的整數倍。
自適應Anchor（AutoAnchor）

通過 k-means聚類 + 遺傳算法來生成和當前數據集匹配度更高的anchors，如果需要在自己的數據集上訓練，則可以使用AutoAnchor策略
預熱（Warmup）

訓練開始前會使用 warmup 進行訓練。在模型預訓練階段，先使用較小的學習率訓練一些epochs或者steps (如4個 epoch 或10000個 step)，再修改為預先設置的學習率進行訓練。

Warmup的作用:
- 有助于減緩模型在初始階段對mini-batch的提前過擬合現象，保持分布的平穩
- 有助于保持模型深層的穩定性
學習率調整策略（Cosine LR scheduler）

余弦退火衰減

引入學習率衰減的定義（訓練神經網絡時一般需要調整學習率，隨著epoch的增加，學習率不斷衰減），學習率如果太大，容易發生震蕩，此時需要調小學習率，如果學習率太小，則訓練的時間太長。學習率衰減yolov5中采用余弦退火方式。(快照集成)

嚴格的說，余弦退火策略不應該算是學習率衰減策略，因為它使得學習率按照周期變化
動量（EMA）

采用了 EMA 更新權重，相當于訓練時給參數賦予一個動量，這樣更新起來就會更加平滑
混合精度訓練（Mixed precision）

使用了 amp 進行混合精度訓練。能夠減少顯存的占用并且加快訓練速度，但是需要 GPU 支持

后續問題收集處理

問題一：在訓練階段三個anchor都求Loss還是只求一個最大的Loss

Classes Loss 計算正樣本損失（計算所有正樣本Loss，并非每個grid cell 中都會有一個anchor）

Objectness Loss 計算所有樣本損失（計算所有grid cell中所有anchor的Loss）

Location Loss 計算正樣本損失（同上）
loss.pyclass ComputeLoss:sort_obj_iou = False# Compute lossesdef __init__(self, model, autobalance=False):...def __call__(self, p, targets): # predictions, targets ##初始化各個損失lcls = torch.zeros(1, device=self.device) # class losslbox = torch.zeros(1, device=self.device) # box losslobj = torch.zeros(1, device=self.device) # object loss# 獲取正樣本anchor的標簽分類、坐標框信息、索引值，以及anchor的尺寸# [198, 289, 280]**tcls, tbox, indices, anchors = self.build_targets(p, targets) # targets 獲得標簽分類，邊框，索引，anchors**# Losses 遍歷三個尺度層的預測輸出for i, pi in enumerate(p): # layer index, layer predictions# b表示當前bbox屬于batch內部的第幾張圖片，# a表示當前bbox和當前層的第幾個anchor匹配上，# gi,gj是對應的負責預測該bbox的網格坐標**b, a, gj, gi = indices[i] # image, anchor, gridy, gridx**tobj = torch.zeros(pi.shape[:4], dtype=pi.dtype, device=self.device) # target objn = b.shape[0] # number of targetsif n:# 根據對應正樣本的位置信息取出相應位置的預測值# [198, 289, 280] 對應3次for循環**pxy, pwh, _, pcls = pi[b, a, gj, gi].split((2, 2, 1, self.nc), 1) # target-subset of predictions 找到對應網格的輸出，取出對應位置預測值**# Regression 目標框回歸 pxy = **pxy**.sigmoid() * 2 - 0.5 # [198*2, 289*2, 280*2]pwh = (**pwh**.sigmoid() * 2) ** 2 * anchors[i] # [198*2, 289*2, 280*2]**pbox** = torch.cat((pxy, pwh), 1) # predicted box# 正樣本anchor的iou值總數（198+289+280）**iou = bbox_iou(pbox, tbox[i], CIoU=True).squeeze() # iou(prediction, target) 計算邊框損失，計算的是CIOU****lbox += (1.0 - iou).mean()** # 定位損失 # Objectness 置信度損失iou = iou.detach().clamp(0).type(tobj.dtype)if self.sort_obj_iou:j = iou.argsort()b, a, gj, gi, iou = b[j], a[j], gj[j], gi[j], iou[j]if self.gr < 1:iou = (1.0 - self.gr) + self.gr * iou# 獲取正樣本anchor賦值IOU，其余anchor的IOU值為0tobj[b, a, gj, gi] = iou # iou ratio# Classification 分類損失if self.nc > 1: # cls loss (only if multiple classes) 類別數大于1# [198*80, 289*80, 280*80]t = torch.full_like(**pcls**, self.cn, device=self.device) # targetst[range(n), tcls[i]] = self.cplcls += self.BCEcls(pcls, t) # BCE 分別對每個類別計算loss**obji = self.BCEobj(pi[..., 4], tobj) # [1*3*80*80, 1*3*40*40, 1*3*20*20]lobj += obji * self.balance[i] # obj loss**if self.autobalance:self.balance[i] = self.balance[i] * 0.9999 + 0.0001 / obji.detach().item()if self.autobalance:self.balance = [x / self.balance[self.ssi] for x in self.balance]# 根據超參數設置的各個部分損失的系數獲取最終的損失lbox *= self.hyp['box']lobj *= self.hyp['obj']lcls *= self.hyp['cls']bs = tobj.shape[0] # batch sizereturn (lbox + lobj + lcls) * bs, torch.cat((lbox, lobj, lcls)).detach()
問題二：cls和cls_pw的詳細含義
box: 0.02 #定位損失的系數 cls: 0.21638 #分類損失的系數 cls_pw: 0.5 #分類BCELoss中正樣本的權重 obj: 0.51728 #有無物體損失的系數 obj_pw: 0.67198 #有無物體BCELoss中正樣本的權重
- cls_pw 和obj_pw
  
  可以通過向正例添加權重來權衡召回率和精度。在多標簽分類的情況下，損失可以描述為：
  
  $c?(x,y)=Lc?=\{l_{1,c}?,…,l_{N,c?}\}?,l_{n,c}?=?w_{n,c}?[p_c?y_{n,c}??logσ(x_{n,c}?)+(1?y_{n,c}?)?log(1?σ(x_{n,c}?))]$
  
  $?(x,y)={mean(L),if?reduction=‘mean’;sum(L),if?reduction=‘sum’.?(x,y)=\begin{cases}mean(L),& \text{if reduction=‘mean’;}\\sum(L),& \text{if reduction=‘sum’.}\end{cases}$
  
  c是標簽數量(c>1用于多標簽的二元分類，c=1用于單標簽的二元分類)，n是batch size $p_c$ 是正樣本的權重用來權衡召回率和精度， $p_c$ >1時增加召回率， $p_c$ <1時增加精度
  
  例如，如果數據集包含單個類的 100 個正樣本和 300 個負樣本，則該類的 pos_weight 應等于 $300100=3\frac{300}{100}=3$ 。損失將表現為數據集包含 3×100=300 個正例。
- box、cls和obj
  
  在train.py中會通過段代碼調節三個損失的各自權重
  # Model parameters hyp['box'] *= 3 / nl # 通過檢測層數來縮放box系數 hyp['cls'] *= nc / 80 * 3 / nl # 通過檢測層數和類別數縮放cls系數 hyp['obj'] *= (imgsz / 640) ** 2 * 3 / nl # 通過類別數和圖像尺寸來縮放obj系數
  最后分別計算三種Loss并將其加權Loss求和
  lbox *= self.hyp['box'] lobj *= self.hyp['obj'] lcls *= self.hyp['cls'] bs = tobj.shape[0] # batch sizereturn (lbox + lobj + lcls) * bs, torch.cat((lbox, lobj, lcls)).detach()
問題三：batch NMS和NMS的區別
#如果agnostic為True則執行NMS，如果為False則執行batch NMS c = x[:, 5:6] * (0 if agnostic else max_wh) # 類別序號乘以7680 max_wh boxes, scores = x[:, :4] + c, x[:, 4] # boxes在所有的坐標上加上了7680*類別序號，目的是為了將不同類別的boxes分離開 scores類別概率 i = torchvision.ops.nms(boxes, scores, iou_thres) # NMS 對bouding boxes索引進行降序排列，選中一個框，遍歷其他的框與這個框做IOU，如果IOU大于某個閾值則將遍歷的這個框刪除（同一個物體） if i.shape[0] > max_det: # 判斷是否超出最大檢測數i = i[:max_det] if merge and (1 < n < 3E3): # Merge NMS (boxes merged using weighted mean)# update boxes as boxes(i,4) = weights(i,n) * boxes(n,4)iou = box_iou(boxes[i], boxes) > iou_thres # iou matrixweights = iou * scores[None] # box weightsx[i, :4] = torch.mm(weights, x[:, :4]).float() / weights.sum(1, keepdim=True) # merged boxesif redundant:i = i[iou.sum(1) > 1] # require redundancy
- batched_nms():
  
  根據每個類別進行過濾，只對同一種類別進行計算IOU和閾值過濾
- nms():
  
  不區分類別對所有bbox進行過濾。如果有不同類別的bbox重疊的話會導致被過濾掉并不會分開計算。

參考資料

YOLOV5-5.x 源碼講解
YOLOV5代碼解讀中遇到的原理性問題解決
目標檢測 YOLOv5 - 損失函數的改進
使用余弦退火逃離局部最優點——快照集成(Snapshot Ensembles)在Keras上的應用
pytorch必須掌握的的4種學習率衰減策略
yolov5 loss總結
目標檢測: 一文讀懂 YOLOV5 Loss 正樣本采樣
深刻剖析與實戰BCELoss詳解（主）和BCEWithLogitsLoss（次）以及與普通CrossEntropyLoss的區別（次）
YOLOv5網絡詳解
深入淺出Yolo系列之Yolov3&Yolov4&Yolov5&Yolox核心基礎知識完整講解

總結

以上是生活随笔為你收集整理的目标检测 YOLOv5网络v6 0版本总结的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： SQLSERVER2012数据恢复过程
下一篇：时间与空间之旅解题报告