目标检测 YOLOv5网络v6 0版本总结
目標檢測 YOLOv5網絡v6.0版本總結
YOLOv5對比YOLOv4
- 輸入端:在模型訓練階段,提出了Mosaic數據增強、自適應錨框計算、自適應圖片縮放等;
- Backbone網絡:融合其它檢測算法的新思路,主要有:Focus結構與CSP結構;
- Neck網絡:YOLOv5在BackBone與最后的Head輸出層之間往往會插入了FPN+PAN結構
- Head輸出層:輸出層的錨框機制與YOLOv4相同,主要改進了訓練時的損失函數GIOU_Loss和預測框篩選的CIOU_nms
網絡結構
-
YOLOv5s_5.x
-
YOLOv5s_6.x
與YOLOv5_5.x相比較,YOLOv5_6.x網絡結構更加精簡:
- Conv(k=6, s=2, p=2)替換Focus模塊,便于導出其他框架
- SPPF模塊替代SPP,并且將SPPF放在backbone最后一層
- backbone中的C3層重復次數從9次減小到6次
- backbone中最后一個C3層引入了shortcut(C3 n=1 True)
從結構圖可以看出網絡分為輸入端、Backbone、Neck、Head輸出端四個部分。YOLOv5包含:YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四種版本,下面以YOLOv5s為例**:**
- 輸入端:輸入圖像的大小為608*608,該階段通常包含一個圖像預處理階段,即將輸入圖像縮放到網絡的輸入大小,并進行歸一化等操作。在網絡訓練階段,YOLOv5使用**Mosaic數據增強操作提升模型的訓練速度和網絡的精度;并提出了一種自適應錨框計算與自適應圖片縮放**方法。
- Backbone網絡:Backbone網絡通常是一些性能優異的分類器網絡,該模塊用來提取一些通用的特征表示。YOLOv5中不僅使用了**CSPDarknet53結構**,而且使用了Focus結構作為基準。
- Neck網絡:Neck網絡通常位于Backbone網絡和Head網絡的中間位置,利用它可以進一步提升特征的多樣性及魯棒性。YOLOv5 v6_x用SPPF替換掉了YOLOv5 v5_x的SPP,在計算結果相同的情況下SPPF計算速度比SPP快了兩倍。在PAN結構中引入了CSP結構
- Head輸出端:Head用來完成目標檢測結果的輸出。針對不同的檢測算法,輸出端的分支個數不盡相同,通常包含一個分類分支和一個回歸分支。YOLOv4利用GIOU_Loss來代替Smooth L1 Loss函數,從而進一步提升算法的檢測精度。
輸入端
-
數據增強
Mosaic
將四張圖片拼成一張圖片
Copy paste
將部分目標隨機粘貼到圖片中,前提是數據要有實例分割才可以
Random affine
隨即進行仿射變換,其中包括旋轉、縮放、平移和裁剪
MixUp
將兩張圖按照一定的透明度融合在一起
Albumentations
主要是做些濾波、直方圖均衡化以及改變圖片質量等等
Augment HSV
隨機調整色度,飽和度以及明度。
Random horizontal flip
隨機水平翻轉
-
自適應錨框計算
YOLO算法中,針對不同的數據集,都會有初始設定長寬的錨框,在網絡訓練中,網絡在初始錨框的基礎上輸出預測框,進而和ground truth進行對比,計算兩者差距,再反向更新迭代網絡參數。
在YOLOv3、YOLOv4中,訓練不同的數據集時,計算初始錨框的值時通過單獨的程序運行的,而YOLOv5中將此功能嵌入到代碼中,每次訓練時,自適應的計算不同訓練集中的最佳錨框值。如果在實際訓練中感覺計算的錨框修效果不是很好,也可以在代碼中將自動計算錨框功能關閉。
-
自適應圖片縮放
在常用的目標檢測算法中,不同的圖片長寬都不相同,因此常用的方式是將原始圖片統一縮放到一個標準尺寸,再送入檢測網絡中。而YOLOv5中對此做了改進,推理速度得到了37%的提升。 具體思路是由于在項目實際使用中,很多圖片的長寬比不同,因此縮放填充后兩邊的黑邊大小都不同,如果填充的太多則會影響推理速度,因此作者在datasets.py的letterbox函數中對此做了修改,對原始圖片自適應的添加最少的黑邊
第一步:計算縮放比例
第二步:計算縮放后的尺寸
第三步:計算河邊填充數值
注意:
- 填充色為灰色**(114,114,114)或者黑色(0,0,0)**效果都一樣
- 訓練時采用的是傳統的填充模式,即縮到416*416并沒有采用縮減黑邊的方法,只是才推理時才采用了縮減黑邊的方式,提高了目標檢測的推理速度
- 為什么np.mod函數的后面用32?因為Yolov5的網絡經過5次下采樣,而2的5次方等于32。所以至少要去掉32的倍數,再進行取余
網絡模塊
-
yolov5s.yaml參數
-
Parameters
# YOLOv5 🚀 by Ultralytics, GPL-3.0 license# Parameters nc: 80 # number of classes depth_multiple: 0.33 # model depth multiple width_multiple: 0.50 # layer channel multiple anchors:- [10,13, 16,30, 33,23] # P3/8 - [30,61, 62,45, 59,119] # P4/16- [116,90, 156,198, 373,326] # P5/32- nc:代表數據集中的類別數目
- depth_multiple:控制子模塊的數量(depth_multiple * number)僅在number不等于1時啟用
- width_multiple:控制卷積核的數量 (width_multiple*args[0])主要作用于args中的ch_out
-
backbone
# YOLOv5 v6.0 backbone backbone:# [from, number, module, args][[-1, 1, Conv, [64, 6, 2, 2]], # 0-P1/2[-1, 1, Conv, [128, 3, 2]], # 1-P2/4[-1, 3, C3, [128]],[-1, 1, Conv, [256, 3, 2]], # 3-P3/8[-1, 6, C3, [256]],[-1, 1, Conv, [512, 3, 2]], # 5-P4/16[-1, 9, C3, [512]],[-1, 1, Conv, [1024, 3, 2]], # 7-P5/32[-1, 3, C3, [1024]],[-1, 1, SPPF, [1024, 5]], # 9]- from:-n代表是從前n層獲得的輸入
- number:表示網絡模塊的數目
- module:表示網絡模塊的名稱,具體細節可以在./models/common.py查看
- args:表示向不同模塊內傳遞的參數,即[ch_out, kernel, stride, padding, groups]
-
head
# YOLOv5 v6.0 head head:# [from, number, module, args][[-1, 1, Conv, [512, 1, 1]],[-1, 1, nn.Upsample, [None, 2, 'nearest']],[[-1, 6], 1, Concat, [1]], # cat backbone P4[-1, 3, C3, [512, False]], # 13[-1, 1, Conv, [256, 1, 1]],[-1, 1, nn.Upsample, [None, 2, 'nearest']],[[-1, 4], 1, Concat, [1]], # cat backbone P3[-1, 3, C3, [256, False]], # 17 (P3/8-small)[-1, 1, Conv, [256, 3, 2]],[[-1, 14], 1, Concat, [1]], # cat head P4[-1, 3, C3, [512, False]], # 20 (P4/16-medium)[-1, 1, Conv, [512, 3, 2]],[[-1, 10], 1, Concat, [1]], # cat head P5[-1, 3, C3, [1024, False]], # 23 (P5/32-large)[[17, 20, 23], 1, Detect, [nc, anchors]], # Detect(P3, P4, P5)]
-
-
Backbone
-
Focus模塊
Focus模塊在YOLOv5中在圖片進入backbone前對圖片進行切片。具體操作是在一張圖片中每隔一個像素拿到一個值,類似于鄰近下采樣,這樣就拿到了四張圖片,四張圖片互補,長的差不多,但是沒有信息丟失,這樣W,H通道縮減為原來的一半但是輸入通道擴充了4倍,即拼接起來的圖片相對于原先的RGB三通道模式變成了12個通道,最后將得到的新圖片再經過卷積操作,最終得到了沒有信息丟失情況下的二倍下采樣特征圖。
以yolov5s為例,原始的640 × 640 × 3的圖像輸入Focus結構,采用切片操作,先變成320 × 320 × 12的特征圖,再經過一次卷積操作,最終變成320 × 320 × 32的特征圖。
yolov5作者認為Focus的作用是:減少層數、減少參數量、減少計算量、減少cuda內存占用,在mAP影響很小的情況下,提升推理速度和梯度反向傳播速度。(相較于YOLOv3)作者認為一個Focus層可以抵YOLOv3的3個卷積層。
具體代碼實現:
class Focus(nn.Module):# Focus wh information into c-spacedef __init__(self, c1, c2, k=1, s=1, p=None, g=1, act=True): # ch_in, ch_out, kernel, stride, padding, groupssuper(Focus, self).__init__()self.conv = Conv(c1 * 4, c2, k, s, p, g, act) # 這里輸入通道變成了4倍def forward(self, x): # x(b,c,w,h) -> y(b,4c,w/2,h/2)return self.conv(torch.cat([x[..., ::2, ::2], x[..., 1::2, ::2], x[..., ::2, 1::2], x[..., 1::2, 1::2]], 1)) -
CBS模塊
由Conv+Bn+SiLU激活函數三者組成。是YOLOv5網絡結構中的基礎組件
-
BottleNeck模塊
一個標準的BottleNeck模塊是由11conv、33conv、殘差塊組成,該模塊有兩種結構,第一種是帶殘差塊的結構,另外一種是不帶殘差塊僅由11conv和33conv組成的結構。具體結構圖示如下所示。
-
CSP1_X模塊→C3_1模塊
CSP1_X:
CSP模塊是基于BottleNeck模塊的基礎上進行改進的模塊。YOLOv4在BackBone網絡中使用了CSP結構,而YOLOv5在BackBone中同樣使用了CSP結構。
以YOLOv5s網絡為例,CSP1_X結構應用于Backbone主干網絡,另一種CSP2_X結構應用于Neck中。
C3_1:C3模塊用來替換BottleneckCSP模塊,從下圖可以看出C3相對于BottleneckCSP模塊,減少了以一個1*1的conv層,同時撤掉了一個BN層和激活層。結果就是在模型的性能沒有下降的同時,模型參數略微下降,推理時間縮短,mAP有小幅度提升(在COCO數據集上的實驗結果。)下圖所示的ResUnit即為YOLOv5中的bottleneck模塊
-
SPP→SPPF模塊
SPP:
- SPP是將輸入并行通過多個不同大小的MaxPool,然后做進一步融合,能在一定程度上解決目標多尺度問題。
SPPF:
- SPPF結構是將輸入串行通過多個5*5大小的MaxPool層。
SPP VS SPPF:
對比SPP與SPPF的計算結果以及速度(代碼上將SPPF中最開始和結尾處的1*1卷積層給去掉,只對比含有MaxPool的部分):
import time import torch import torch.nn as nnclass SPP(nn.Module):def __init__(self):super().__init__()self.maxpool1 = nn.MaxPool2d(5, 1, padding=2)self.maxpool2 = nn.MaxPool2d(9, 1, padding=4)self.maxpool3 = nn.MaxPool2d(13, 1, padding=6)def forward(self, x):o1 = self.maxpool1(x)o2 = self.maxpool2(x)o3 = self.maxpool3(x)return torch.cat([x, o1, o2, o3], dim=1)class SPPF(nn.Module):def __init__(self):super().__init__()self.maxpool = nn.MaxPool2d(5, 1, padding=2)def forward(self, x):o1 = self.maxpool(x)o2 = self.maxpool(o1)o3 = self.maxpool(o2)return torch.cat([x, o1, o2, o3], dim=1)def main():input_tensor = torch.rand(8, 32, 16, 16)spp = SPP()sppf = SPPF()output1 = spp(input_tensor)output2 = sppf(input_tensor)print(torch.equal(output1, output2))t_start = time.time()for _ in range(100):spp(input_tensor)print(f"spp time: {time.time() - t_start}")t_start = time.time()for _ in range(100):sppf(input_tensor)print(f"sppf time: {time.time() - t_start}")if __name__ == '__main__':main()最終輸出結果:
由上圖結果可以看出SPP和SPPF的計算結果一致,但是SPPF運行速度比SPP要快上兩倍多。
-
-
Neck
-
FPN+PAN
YOLOv5目前的Neck和YOLOv4中一樣都采用了FPN+PAN的結構,但是在YOLOv5剛出來時只使用了FPN結構,后續才加入了PAN結構。這種結合操作FPN層自頂向下傳達強語義特征,而特征金字塔則自底向上傳達強定位特征,兩兩聯手,從不同的主干層對不同的檢測層進行參數聚合
-
CSP2_X模塊→C3_2模塊
CSP2:
YOLOv4的Neck結構中采用的都是普通的卷積操作,而在YOLOv5的Neck結構中,采用借鑒CSPNet設計的CSP2結構,增強了網絡特征融合的能力
C3_2:
此處采用的C3與Backbone中的C3模塊略有不同,此處的C3用普通的CBS模塊替代了Backbone中C3的殘差塊
-
-
Head輸出端
-
Bounding box損失函數
YOLOv5和YOLOv4同樣使用了CIOU_LOSS做Bounding box的損失函數
-
nms非極大值抑制
在目標檢測的后處理過程中,針對很多目標框的篩選,通常需要nms操作,因為CIOU_Loss中包含影響因子v,涉及ground truth的信息,而測試推理時,是沒有ground truth的。YOLOv4在DIOU_Loss的基礎上采用DIOU_nms的方式,而YOLOv5則采用了加權nms的方式(CIOU_Loss+DIOU_nms),由下圖可以看出,采用DIOU_Loss,原本被遮擋的摩托車也可以被檢測出來(黃色箭頭部分)
-
其他細節
-
BCELoss和BCEWithLogitsLoss
BCELoss和BCEWithLogitsLoss是一組常用的二元交叉熵損失函數,常用于二分類問題。區別在于BCELoss的輸入需要先進行Sigmoid處理,而BCEWithLogitsLoss則是將Sigmoid和BCELoss合成一步,也就是說BCEWithLogitsLoss函數內部自動先對output進行Sigmoid處理,再對output和target進行BCELoss計算。
BCELoss需要將data_input事先sigmoid好才能用,而BCEWithLogitsLoss會幫你sigmoid,如下:(運行結果可以看出兩者的輸出值是一樣的)
input = torch.randn(3)#隨機生成一個輸入,沒有被sigmoid。 target=torch.Tensor([0., 1., 1.]) loss1=nn.BCELoss() loss2=nn.BCEWithLogitsLoss() print("BCELoss:",loss1(torch.sigmoid(input), target))#需要sigmod print("BCEWithLogitsLoss:",loss2(input,target))#不需要sigmoid -
損失函數計算
YOLOv5的損失只要由三個部分組成:(λ1,λ2,λ3為平衡系數)下圖中zxy為矩陣維度[3,80,80]
分類損失和定位損失使用二元交叉熵損失函數BCEWithLogitsLoss計算。置信度損失計算使用CIoU函數計算
-
Classes Loss:分類損失,采用的是BCE Loss,這里只計算正樣本的分類損失。
-
網絡對8080網格的每個格子都預測三個預測框,每個預測框的預測信息都包含了N個分類概率。其中N為總類別數,最終會組成一個[38080N]的概率矩陣
-
為了減少過擬合,且增加訓練的穩定性,通常對獨熱碼標簽做一個平滑操作。如下式,label為獨熱碼中的所有數值,α為平滑系數,取值范圍0~1,通常取0.1
-
-
Objectness Loss:obj損失,采用BCE Loss,這里的obj指的是網絡預測的目標邊界框與ground truth的CIOU。這里計算的是所有樣本的obj損失
-
YOLO之前版本直接對mask矩陣為true的地方賦值1,mask矩陣為false的地方賦值0,mask為true只表示預測框在目標附近,并不一定完美包圍了目標。yolov5改變了做法:對mask為true的位置計算對應預測框與目標框的CIOU,使用CIOU作為該預測框的置信度標簽,當然對mask為false的位置還是直接賦0。這樣標簽值的大小與預測框、目標框的重合度有關,兩框重合度越高則標簽值越大。但是CIOU的取值范圍是-1.51,而置信度標簽的取值范圍是01,所以需要對CIOU做一個截斷處理:當CIOU小于0時直接取0值作為標簽。
-
假設置信度標簽為矩陣L,預測置信度為矩陣P,那么矩陣中每個數值的BCE loss的計算公式如下
-
CIOU Tips
-
CIOU公式
-
初始版本的YOLOv5:
- 原論文CIoU損失在實現上做了一點小調整, 在求導時a作為常數項不參與梯度更新, 只針對v里的w和h分別求導, 會得到如下圖式
-
其中w2+h2通常會由于w或者h太小而造成反向傳播的時候梯度爆炸, 所以原作者最初版本的實現如下
with torch.no_grad():arctan = torch.atan(w2 / h2) - torch.atan(w1 / h1)v = (4 / (math.pi ** 2)) * torch.pow((torch.atan(w2 / h2) - torch.atan(w1 / h1)), 2)S = 1 - ioualpha = v / (S + v)w_temp = 2 * w1ar = (8 / (math.pi ** 2)) * arctan * ((w1 - w_temp) * h1)cious = iou - (u + alpha * ar)其中alpha和v均不參與梯度更新, 只有ar處直接寫成了求導形式, 最后對w,h求導只會剩下h,-w,沒有w2+h2
-
YOLOv5 6v_x
-
在最新的CIOU實現上改為如下:
v = (4 / (math.pi ** 2)) * torch.pow((torch.atan(w2 / h2) - torch.atan(w1 / h1)), 2)with torch.no_grad():S = 1 - ioualpha = v / (S + v)cious = iou - (u + alpha * v)cious = torch.clamp(cious,min=-1.0,max = 1.0)同樣的alpha不參與參數的梯度更新, 只是作為一個常數, 但是v的修改已經默認了不對w2+h2問題做額外處理, 早期的版本雖然兼顧了w2+h2對最終梯度問題的影響, 反向傳播形式沒變, 但是正向表達式中的v變了, yolov5由于對wh有做進一步篩選, 所以避免了w2+h2過小對梯度的影響。
-
-
-
-
-
Location Loss:定位損失,采用的是CIOU Loss,只計算正樣本的定位損失(IOU、GIOU、DIOU、CIOU)
-
-
平衡不同尺度的損失
這里針對三個預測特征層(p3, p4, p5)上的obj損失采用不同的權重,在源碼中,針對預測小目標的預測特征層(p3)采用的權重是4.0,針對預測中等目標的預測特征層(p4)采用的權重是1.0,針對預測大目標的預測特征層(P5)采用的權重是0.4,這個是針對COCO數據集設置的超參數
-
消除Grid敏感度
在YOLOv4中主要是調整預測目標中心點相對Grid Cell的左上角偏移量。下圖是YOLOv2,v3的計算公式。
- txt_xtx?是網絡預測的目標中心x坐標偏移量(相對于網格的左上角)
- tyt_yty?是網絡預測的目標中心y坐標偏移量(相對于網格的左上角)
- cxc_xcx?是對應網格左上角的x坐標
- cyc_ycy?是對應網格左上角的y坐標
- σ\sigmaσ是Sigmoid激活函數,將預測的偏移量限制在 0 到 1 之間,即預測的中心點不會超出對應Grid Cell 區域
調整一:
關于預測目標中心點相對Grid Cell左上角 ( ?cx?*c_x*?cx?? ,cyc_ycy? ) 偏移量為 σ(tx)\sigma(t_x)σ(tx?),σ(tx)\sigma(t_x)σ(tx?) 。YOLOv4 的作者認為這樣做不太合理,**比如當真實目標中心點非常靠近網格的左上角點( σ(tx)\sigma(t_x)σ(tx?)和 σ(ty)\sigma(t_y)σ(ty?)應該趨近于 0 )或者右下角點( σ(tx)\sigma(t_x)σ(tx?)和 σ(ty)\sigma(t_y)σ(ty?)應該趨近于 1 )時,網絡的預測值需要負無窮或者正無窮時才能取到,而這種很極端的值網絡一般無法達到。**為了解決這個問題,作者對偏移量進行了縮放從原來的( 0 , 1 ) 縮放到( ?0.5 , 1.5 ) 這樣網絡預測的偏移量就能很方便達到 0 或 1,故最終預測的目標中心點 bxb_xbx?, byb_yby? 的計算公式為:
下圖是繪制的 y=σ(x)y = \sigma(x)y=σ(x)對應**before曲線和y=2?σ(x)?0.5y = 2 \cdot \sigma(x) - 0.5y=2?σ(x)?0.5對應after**曲線,很明顯通過引入縮放系數scale以后,y 對x 更敏感了,且偏移的范圍由原來的( 0 , 1 ) 調整到了( ?0.5 , 1.5 )。
調整二:
YOLOv5中除了調整預測Anchor相對Grid Cell左上角 (cx,cy)(c_x, c_y)(cx?,cy?) 偏移量以外,還調整了預測目標高寬的計算公式,調整后的公式為:
作者的意思是,原來的計算公式并沒有對預測目標寬高做限制,這樣可能出現梯度爆炸,訓練不穩定等問題。下圖是修改前y=exy = e^xy=ex和修改后y=(2?σ(x))2y = (2 \cdot \sigma(x))^2y=(2?σ(x))2(相對Anchor寬高的倍率因子)的變化曲線, 很明顯調整后倍率因子被限制在( 0 , 4 ) 之間。
-
匹配正樣本(Build Targets)
YOLOv4中是直接將每個ground truth box與對應的Anchor Templates模板計算IoU,只要IoU
大于設定的閾值就算匹配成功。但在YOLOv5中,作者先去計算每個ground truth box與對應的Anchor Templates模板的高寬比例,即:rw=wgt/watrh?=hgt?/hat?r_w=w_{gt}/w_{at} \\ r_h?=h_{gt?}/h_{at?}rw?=wgt?/wat?rh??=hgt??/hat??
然后統計這些比例和它們倒數之間的最大值,這里可以理解成計算GT Box和Anchor Templates
分別在寬度以及高度方向的最大差異(當相等的時候比例為1,差異最小):rwmax=max(rw,1/rw)rhmax=max(rh,1/rh)r_w^{max} = max(r_w, 1 / r_w) \\ r_h^{max} = max(r_h, 1 / r_h)rwmax?=max(rw?,1/rw?)rhmax?=max(rh?,1/rh?)
接著統計rwmaxr_w^{max}rwmax?和rhmaxr_h^{max}rhmax?之間的最大值,即寬度和高度方向差異最大的值:
rmax=max(rwmax,rhmax)r^{max} = max(r_w^{max}, r_h^{max})rmax=max(rwmax?,rhmax?)
如果ground truth box和對應的Anchor Template的 rmaxr^{max}rmax小于閾值anchor_t(在源碼中默認設置為4.0),即ground truth box和對應的Anchor Template的高、寬比例相差不算太大,則將ground truth box分配給該Anchor Template模板。為了方便大家理解,可以看下我畫的圖。假設對某個ground truth box而言,其實只要ground truth box滿足在某個Anchor Template寬和高的×0.25\times 0.25×0.25倍和×4.0\times4.0×4.0倍之間就算匹配成功。
剩下的步驟和YOLOv4中一致:
-
將ground truth投影到對應預測特征層上,根據ground truth的中心點定位到對應Cell,注意圖中有三個對應的Cell。因為網絡預測中心點的偏移范圍已經調整到了( ?0.5 , 1.5 ) ,所以按理說只要Grid Cell左上角點距離ground truth中心點在( ?0.5 , 1.5 )范圍內它們對應的Anchor都能回歸到ground truth的位置處。這樣會讓正樣本的數量得到大量的擴充。
-
則這三個Cell對應的AT2和AT3都為正樣本。
還需要注意的是,YOLOv5源碼中擴展Cell時只會往上、下、左、右四個方向擴展,不會往左上、右上、左下、右下方向擴展。下面又給出了一些根據GTxcenter,GTycenterGT_x^{center}, GT_y^{center}GTxcenter?,GTycenter? 的位置擴展的一些Cell案例,其中%1 %1 表示取余并保留小數部分。
-
-
標簽平滑(Label Smoothing)
假設分類有兩個,一個是貓一個不是貓,分別用0和1表示。Label smoothing的工作原理是對原來的[0, 1]這種標注做一個改動,假設我們給定Label Smoothing的平滑參數為0.1: [0, 1]*(1-0.1)+0.1/2 = [0.05, 0.95]
可以看到,原來的[0,1]標簽成了[ 0.05 , 0.95 ]了,那么就是說,原來分類準確的時候,p = 1 ,不準確為p = 0。假設為Label Smoothing的平滑參數為?,現在變成了: 分類準確的時候 p=1?0.5??p=1-0.5*\epsilonp=1?0.5??, 分類不準確時 p=0.5??p=0.5*\epsilonp=0.5??,也就是說對分類準確做了一點懲罰。
這實際上是一種正則化策略,減少了真實樣本標簽的類別在計算損失函數時的權重,最終起到抑制過擬合的效果。
下圖為使用Label Smoothing的概率分布圖:
-
IOU、GIOU、DIOU、CIOU
-
IOU
IoU就是我們所說的交并比,是目標檢測中最常用的指標,在anchor-based的方法中,他的作用不僅用來確定正樣本和負樣本,還可以用來評價輸出框(predict box)和ground-truth的距離。
- 它可以反映預測檢測框與真實檢測框的檢測效果
- 一個很好的特性就是尺度不變性,也就是對尺度不敏感
-
GIOU
GIOU:《Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression》
-
GIoU在IoU的基礎上考慮多了非交叉面積比例, 如上圖紅色虛線框就是A,B邊框的最小包圍框,灰色斜線面積占整個紅色邊框面積就是非交叉面積占比
-
對比L2 Loss, IoU和GIoU具有尺度不變性, 意味著當目標邊框等比放大時,損失能依舊保持同樣的量級, 無需針對大小不同邊框分別處理。
-
對比IoU Loss, L2和GIoU具有偏離趨勢度量能力, 如左下圖, 傳統IoU=0時,邊框距離的遠近已經對最終損失都是一樣, 但是GIoU隨著兩個邊框距離越遠,表現得越接近-1, 換算成損失就是越大, 同樣GIoU會驅使模型預測邊框分布于真實邊框的上下左右方向, 對斜方向預測結果施加更大損失,如右下圖所示。
-
GIoU的損失值域空間為[0,2], 當完美擬合損失0, 當距離無限遠且不交叉時,損失是2
-
-
DIOU
DIoU: 《Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression》
DIoU損失在1-IoU的基礎上, 增加了中心點距離占比懲罰項, 其中懲罰項分子是預測邊框中心點與真實邊框中心點的距離, 分母是預測邊框與真實邊框的最小包圍框對角線長, 如下圖d和c
-
對比GIoU Loss, DIoU能更好度量預測邊框和真實邊框的中心點距離和方向, 表現如下圖所示,綠色真實邊框, 紅色預測邊框, 當預測邊框與真實邊框互相包含, 或者互相垂直交叉, 水平交叉,GIoU會退化成為IoU, 從而失去非交叉占比的懲罰項, 而DIoU依舊能為模型提供更好的梯度方向
-
與GIoU Loss一樣, DIoU也具有尺度不變性, 意味著當目標邊框等比放大時, 損失能依舊保持同樣的量級, 無需針對大小不同邊框分別處理
-
與GIoU損失一樣, DIoU損失值域空間為[0,2], 當完美擬合損失0, 當距離無限遠且不交叉時,損失是2
-
-
CIOU
CIoU: 《Enhancing Geometric Factors in Model Learning and Inference for Object Detection and InstanceSegmentation》
CIoU損失在DIoU的基礎上, 增加了寬高比懲罰項, 其中v為真實邊框與預測邊框的寬高比損失, α\alphaα為寬高比損失系數
-
對比DIoU Loss, 當預測邊框和真實邊框的中心點重合, CIoU具有更好的寬高擬合效果, 如下圖所示 , 預測邊框與真實邊框中心點重合, DIoU損失中的中心點距離懲罰項=0, DIoU損失退化成IoU損失, 但是此時CIoU仍有寬高比損失懲罰, 能進一步調整寬高比例
-
CIoU綜合了IoU的交叉面積占比損失, DIoU的中心點偏移損失, 以及自身寬高比損失3種度量優點
-
-
-
多尺度訓練
如果網絡的輸入是416 x 416。那么訓練的時候就會從 0.5 x 416 到 1.5 x 416 中任意取值,但所取的值都是32的整數倍。
-
自適應Anchor(AutoAnchor)
通過 k-means聚類 + 遺傳算法來生成和當前數據集匹配度更高的anchors,如果需要在自己的數據集上訓練,則可以使用AutoAnchor策略
-
預熱(Warmup)
訓練開始前會使用 warmup 進行訓練。在模型預訓練階段,先使用較小的學習率訓練一些epochs或者steps (如4個 epoch 或10000個 step),再修改為預先設置的學習率進行訓練。
Warmup的作用:
- 有助于減緩模型在初始階段對mini-batch的提前過擬合現象,保持分布的平穩
- 有助于保持模型深層的穩定性
-
學習率調整策略(Cosine LR scheduler)
余弦退火衰減
引入學習率衰減的定義(訓練神經網絡時一般需要調整學習率,隨著epoch的增加,學習率不斷衰減),學習率如果太大,容易發生震蕩,此時需要調小學習率,如果學習率太小,則訓練的時間太長。學習率衰減yolov5中采用余弦退火方式。(快照集成)
嚴格的說,余弦退火策略不應該算是學習率衰減策略,因為它使得學習率按照周期變化
-
動量(EMA)
采用了 EMA 更新權重,相當于訓練時給參數賦予一個動量,這樣更新起來就會更加平滑
-
混合精度訓練(Mixed precision)
使用了 amp 進行混合精度訓練。能夠減少顯存的占用并且加快訓練速度,但是需要 GPU 支持
后續問題收集處理
-
問題一:在訓練階段三個anchor都求Loss還是只求一個最大的Loss
Classes Loss 計算正樣本損失(計算所有正樣本Loss, 并非每個grid cell 中都會有一個anchor)
Objectness Loss 計算所有樣本損失(計算所有grid cell中所有anchor的Loss)
Location Loss 計算正樣本損失(同上)
loss.pyclass ComputeLoss:sort_obj_iou = False# Compute lossesdef __init__(self, model, autobalance=False):...def __call__(self, p, targets): # predictions, targets ##初始化各個損失lcls = torch.zeros(1, device=self.device) # class losslbox = torch.zeros(1, device=self.device) # box losslobj = torch.zeros(1, device=self.device) # object loss# 獲取正樣本anchor的標簽分類、坐標框信息、索引值,以及anchor的尺寸# [198, 289, 280]**tcls, tbox, indices, anchors = self.build_targets(p, targets) # targets 獲得標簽分類,邊框,索引,anchors**# Losses 遍歷三個尺度層的預測輸出for i, pi in enumerate(p): # layer index, layer predictions# b表示當前bbox屬于batch內部的第幾張圖片,# a表示當前bbox和當前層的第幾個anchor匹配上,# gi,gj是對應的負責預測該bbox的網格坐標**b, a, gj, gi = indices[i] # image, anchor, gridy, gridx**tobj = torch.zeros(pi.shape[:4], dtype=pi.dtype, device=self.device) # target objn = b.shape[0] # number of targetsif n:# 根據對應正樣本的位置信息取出相應位置的預測值# [198, 289, 280] 對應3次for循環**pxy, pwh, _, pcls = pi[b, a, gj, gi].split((2, 2, 1, self.nc), 1) # target-subset of predictions 找到對應網格的輸出,取出對應位置預測值**# Regression 目標框回歸 pxy = **pxy**.sigmoid() * 2 - 0.5 # [198*2, 289*2, 280*2]pwh = (**pwh**.sigmoid() * 2) ** 2 * anchors[i] # [198*2, 289*2, 280*2]**pbox** = torch.cat((pxy, pwh), 1) # predicted box# 正樣本anchor的iou值 總數(198+289+280)**iou = bbox_iou(pbox, tbox[i], CIoU=True).squeeze() # iou(prediction, target) 計算邊框損失,計算的是CIOU****lbox += (1.0 - iou).mean()** # 定位損失 # Objectness 置信度損失iou = iou.detach().clamp(0).type(tobj.dtype)if self.sort_obj_iou:j = iou.argsort()b, a, gj, gi, iou = b[j], a[j], gj[j], gi[j], iou[j]if self.gr < 1:iou = (1.0 - self.gr) + self.gr * iou# 獲取正樣本anchor賦值IOU,其余anchor的IOU值為0tobj[b, a, gj, gi] = iou # iou ratio# Classification 分類損失if self.nc > 1: # cls loss (only if multiple classes) 類別數大于1# [198*80, 289*80, 280*80]t = torch.full_like(**pcls**, self.cn, device=self.device) # targetst[range(n), tcls[i]] = self.cplcls += self.BCEcls(pcls, t) # BCE 分別對每個類別計算loss**obji = self.BCEobj(pi[..., 4], tobj) # [1*3*80*80, 1*3*40*40, 1*3*20*20]lobj += obji * self.balance[i] # obj loss**if self.autobalance:self.balance[i] = self.balance[i] * 0.9999 + 0.0001 / obji.detach().item()if self.autobalance:self.balance = [x / self.balance[self.ssi] for x in self.balance]# 根據超參數設置的各個部分損失的系數獲取最終的損失lbox *= self.hyp['box']lobj *= self.hyp['obj']lcls *= self.hyp['cls']bs = tobj.shape[0] # batch sizereturn (lbox + lobj + lcls) * bs, torch.cat((lbox, lobj, lcls)).detach() -
問題二:cls和cls_pw的詳細含義
box: 0.02 #定位損失的系數 cls: 0.21638 #分類損失的系數 cls_pw: 0.5 #分類BCELoss中正樣本的權重 obj: 0.51728 #有無物體損失的系數 obj_pw: 0.67198 #有無物體BCELoss中正樣本的權重-
cls_pw 和obj_pw
可以通過向正例添加權重來權衡召回率和精度。在多標簽分類的情況下,損失可以描述為:
?c?(x,y)=Lc?={l1,c?,…,lN,c?}?,ln,c?=?wn,c?[pc?yn,c??logσ(xn,c?)+(1?yn,c?)?log(1?σ(xn,c?))]?c?(x,y)=Lc?=\{l_{1,c}?,…,l_{N,c?}\}?,l_{n,c}?=?w_{n,c}?[p_c?y_{n,c}??logσ(x_{n,c}?)+(1?y_{n,c}?)?log(1?σ(x_{n,c}?))]?c?(x,y)=Lc?={l1,c??,…,lN,c??}?,ln,c??=?wn,c??[pc??yn,c???logσ(xn,c??)+(1?yn,c??)?log(1?σ(xn,c??))]
?(x,y)={mean(L),if?reduction=‘mean’;sum(L),if?reduction=‘sum’.?(x,y)=\begin{cases}mean(L),& \text{if reduction=‘mean’;}\\sum(L),& \text{if reduction=‘sum’.}\end{cases}?(x,y)={mean(L),sum(L),?if?reduction=‘mean’;if?reduction=‘sum’.?
c是標簽數量(c>1用于多標簽的二元分類,c=1用于單標簽的二元分類),n是batch sizepcp_cpc?是正樣本的權重用來權衡召回率和精度,pcp_cpc?>1時增加召回率,pcp_cpc?<1時增加精度
例如,如果數據集包含單個類的 100 個正樣本和 300 個負樣本,則該類的 pos_weight 應等于 300100=3\frac{300}{100}=3100300?=3 。損失將表現為數據集包含 3×100=300 個正例。
-
box、cls和obj
在train.py中會通過段代碼調節三個損失的各自權重
# Model parameters hyp['box'] *= 3 / nl # 通過檢測層數來縮放box系數 hyp['cls'] *= nc / 80 * 3 / nl # 通過檢測層數和類別數縮放cls系數 hyp['obj'] *= (imgsz / 640) ** 2 * 3 / nl # 通過類別數和圖像尺寸來縮放obj系數最后分別計算三種Loss并將其加權Loss求和
lbox *= self.hyp['box'] lobj *= self.hyp['obj'] lcls *= self.hyp['cls'] bs = tobj.shape[0] # batch sizereturn (lbox + lobj + lcls) * bs, torch.cat((lbox, lobj, lcls)).detach()
-
-
問題三:batch NMS和NMS的區別
#如果agnostic為True則執行NMS,如果為False則執行batch NMS c = x[:, 5:6] * (0 if agnostic else max_wh) # 類別序號乘以7680 max_wh boxes, scores = x[:, :4] + c, x[:, 4] # boxes在所有的坐標上加上了7680*類別序號,目的是為了將不同類別的boxes分離開 scores類別概率 i = torchvision.ops.nms(boxes, scores, iou_thres) # NMS 對bouding boxes索引進行降序排列,選中一個框,遍歷其他的框與這個框做IOU,如果IOU大于某個閾值則將遍歷的這個框刪除(同一個物體) if i.shape[0] > max_det: # 判斷是否超出最大檢測數i = i[:max_det] if merge and (1 < n < 3E3): # Merge NMS (boxes merged using weighted mean)# update boxes as boxes(i,4) = weights(i,n) * boxes(n,4)iou = box_iou(boxes[i], boxes) > iou_thres # iou matrixweights = iou * scores[None] # box weightsx[i, :4] = torch.mm(weights, x[:, :4]).float() / weights.sum(1, keepdim=True) # merged boxesif redundant:i = i[iou.sum(1) > 1] # require redundancy-
batched_nms():
根據每個類別進行過濾,只對同一種類別進行計算IOU和閾值過濾
-
nms():
不區分類別對所有bbox進行過濾。如果有不同類別的bbox重疊的話會導致被過濾掉并不會分開計算。
-
參考資料
- YOLOV5-5.x 源碼講解
- YOLOV5代碼解讀中遇到的原理性問題解決
- 目標檢測 YOLOv5 - 損失函數的改進
- 使用余弦退火逃離局部最優點——快照集成(Snapshot Ensembles)在Keras上的應用
- pytorch必須掌握的的4種學習率衰減策略
- yolov5 loss總結
- 目標檢測: 一文讀懂 YOLOV5 Loss 正樣本采樣
- 深刻剖析與實戰BCELoss詳解(主)和BCEWithLogitsLoss(次)以及與普通CrossEntropyLoss的區別(次)
- YOLOv5網絡詳解
- 深入淺出Yolo系列之Yolov3&Yolov4&Yolov5&Yolox核心基礎知識完整講解
總結
以上是生活随笔為你收集整理的目标检测 YOLOv5网络v6 0版本总结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SQLSERVER2012数据恢复过程
- 下一篇: 时间与空间之旅 解题报告