多选框位置调整_URPC 2019 水下目标检测竞赛冠军方案:多图像融合增强
作者 | Bbuf
編輯 | 楊曉凡
下面要介紹的論文發(fā)于2019年12月,題為「ROIMIX: PROPOSAL-FUSION AMONG MULTIPLE IMAGESFOR UNDERWATER OBJECT DETECTION」。
axriv地址為:https://arxiv.org/abs/1911.03029
近年來,通用的目標(biāo)檢測算法已經(jīng)證明了其卓越的性能。然而,關(guān)于水下目標(biāo)檢測的話題卻很少被研究。和一般的數(shù)據(jù)集相比,水下圖像通常具有色偏和低對比度的特點(diǎn),并且沉淀物也會導(dǎo)致水下圖像模糊。另外,由于水下動物的生活習(xí)性,它們通常在圖像上挨得很近。為了解決這些問題,本論文的工作是研究增強(qiáng)策略以模擬重疊,遮擋和模糊的目標(biāo),并構(gòu)建一個可以有更好的泛化能力的模型。論文提出了一種稱為ROIMIX的增強(qiáng)方法,該方法可以表征圖像之間的相互作用。之前的圖像增強(qiáng)方法都是在單張圖像上運(yùn)行,而ROIMIX是應(yīng)用于多個圖像以創(chuàng)建增強(qiáng)后的訓(xùn)練樣本數(shù)據(jù)。實(shí)驗結(jié)果表明,此方法在PASCAL VOC數(shù)據(jù)集和URPC數(shù)據(jù)集上均提高了雙階段目標(biāo)檢測器的性能。
研究背景
很多目標(biāo)檢測器在通用數(shù)據(jù)集如PACCAL VOC,MSCOCO上實(shí)現(xiàn)了比較好的性能。然而,水下環(huán)境更加復(fù)雜并且由于光照影響導(dǎo)致水下圖像往往存在對比度低,紋理失真和光照不均勻的特點(diǎn),這導(dǎo)致檢測更加困難。
Figure1(a)展示了密集分布的生物,它們彼此覆蓋,并且因為一些沉淀物變得模糊。水下機(jī)器人檢測比賽(URPC)提供了有挑戰(zhàn)性的水下目標(biāo)檢測數(shù)據(jù)集,該數(shù)據(jù)集包含大量重疊,遮擋和模糊的水下生物。現(xiàn)有的數(shù)據(jù)增強(qiáng)方法對重疊,遮擋和模糊目標(biāo)還沒有進(jìn)行很好的研究。如果檢測模型僅僅適應(yīng)訓(xùn)練數(shù)據(jù),它將缺乏泛化能力,無法應(yīng)對復(fù)雜的水下環(huán)境。
因此,論文提出通過在多個圖像之間混合候選區(qū)域來模擬目標(biāo)的重疊,遮擋和模糊。從理論上分析,遵循經(jīng)驗風(fēng)險最小化原則(ERM),深度模型致力于最小化訓(xùn)練數(shù)據(jù)上的平均誤差,但是它們有過擬合的風(fēng)險。具體來說,ERM指導(dǎo)深層模型記憶訓(xùn)練數(shù)據(jù),而不是從中概況。同時,這些模型容易受到對抗樣本的攻擊。數(shù)據(jù)增強(qiáng)被用來緩解過擬合問題,根據(jù)最小風(fēng)險(VRM)原則,通過增強(qiáng)策略在類似于訓(xùn)練數(shù)據(jù)的樣本上對模型進(jìn)行了優(yōu)化。在圖像分類領(lǐng)域,平移和翻轉(zhuǎn)是增強(qiáng)訓(xùn)練數(shù)據(jù)量的常用策略。
諸如Mixup,CutMix之類的方法致力于創(chuàng)造更好的訓(xùn)練數(shù)據(jù)。本文提出了一種稱為RoIMix的數(shù)據(jù)增強(qiáng)算法,可以提高模型對重疊,遮擋和模糊目標(biāo)的檢測能力。這個方法被用于雙階段檢測器如Faster-RCNN上,和之前在單個物體上進(jìn)行數(shù)據(jù)增強(qiáng)的方法相比,ROIMIX更注重圖像之間的交互。直接在目標(biāo)檢測中應(yīng)用像Mixup這樣的圖像級融合會導(dǎo)致來自不同圖像的區(qū)域建議框未對齊,如Figure1(b)所示。
為了準(zhǔn)確模擬重疊,遮擋和模糊的情況,論文執(zhí)行了候選框級別融合。用這種方式,此方法在Pascal VOC和URPC上取得了出色的目標(biāo)檢測性能,并在URPC 2019水下目標(biāo)檢測競賽上奪冠。
相關(guān)工作數(shù)據(jù)增強(qiáng)
數(shù)據(jù)增強(qiáng)是訓(xùn)練深度學(xué)習(xí)模型的關(guān)鍵策略。在圖像分類領(lǐng)域,常用的數(shù)據(jù)增強(qiáng)策略包括旋轉(zhuǎn),平移或翻轉(zhuǎn)。Zhang等提出將兩個隨機(jī)訓(xùn)練圖像混合以產(chǎn)生鄰近訓(xùn)練數(shù)據(jù),作為一種正則化方法。區(qū)域刪除方法如Cutout會從輸入中隨機(jī)刪除一個區(qū)域,這有助于模型關(guān)注目標(biāo)最有區(qū)別的部分,但是這也可能會導(dǎo)致信息丟失。
此外,更加先進(jìn)的CutMix在訓(xùn)練數(shù)據(jù)集之間剪切和粘貼圖片區(qū)域,從而極大的提高了模型對抗輸入破壞的魯棒性。對于目標(biāo)檢測,通常使用多種增強(qiáng)策略如光照擾動,圖像鏡像和多尺度訓(xùn)練。
除此之外,基于CutMix的預(yù)訓(xùn)練模型可以在Pascal VOC上實(shí)現(xiàn)性能提升,但它并不是專門為目標(biāo)檢測器設(shè)計的。本文充分考慮了基于區(qū)域定位的目標(biāo)檢測器的特性,并提出了一種新的數(shù)據(jù)增強(qiáng)方法。
Faster-RCNN及其變體
Faster-RCNN是雙階段目標(biāo)檢測器發(fā)展史上的里程碑。它由三個模塊組成:一個負(fù)責(zé)提取特征的骨干網(wǎng)絡(luò)如AlexNet,VGG,ResNet和RPN等,一個在特征圖上生成候選框集合的全卷積網(wǎng)絡(luò),一個對候選框區(qū)域進(jìn)行分類回歸的網(wǎng)絡(luò)。
注意,在區(qū)域分類和位置回歸步驟中是沒有共享計算的。而R-FCN提取了空間感知的區(qū)域特征,并在分類回歸階段移除了全連接層來共享計算而不會降低性能。Faster-RCNN的另外一個問題是它使用最后一層特征圖進(jìn)行檢測,對小目標(biāo)的檢測能力比較差。
因此Lin等提出了特征金字塔網(wǎng)絡(luò)FPN,它結(jié)合了低層特征可以更好的最小目標(biāo)做預(yù)測。本文的方法具有通用性,可以應(yīng)用于各種雙階段目標(biāo)檢測器。
方法
如Figure2所示,本文提出的方法在RPN和ROI分類器之間應(yīng)用。使用RPN產(chǎn)生ROI,并以隨機(jī)的比例混合它們。該比例是根據(jù)Beta分布產(chǎn)生的,然后,使用混合樣本來訓(xùn)練模型。下面開始詳細(xì)的描述ROIMIX算法并討論其背后的原理。
算法
讓 xin R^{Himes W imes C} 和 y 代表一個候選框和它的標(biāo)簽。ROIMIX旨在混合兩個從多個圖像中產(chǎn)生的隨機(jī) RIO(x_i,y_i) 和 (x_i,y_i) 來產(chǎn)生新的候選框 (ilde{x}, ilde{y}) ,ROIs的大小通常不同,所以我們需要將 x_j 縮放到和 x_{i cdot} 大小完全一致。產(chǎn)生的訓(xùn)練數(shù)據(jù)(ilde{x}, ilde{y})被用來直接訓(xùn)練檢測模型。混合操作的公式定義如下:
ilde{x} = lambda' x_i + (1 - lambda ') x_i, ~~~~ilde{y} =y_i
其中 lambda' 是兩個候選框的混合系數(shù)。不像Mixup算法那樣直接從一個參數(shù)為 alpha 的Beta分布 B
中直接采樣 lambda ,
lambda = B(a,a)
這里給第一個ROI區(qū)域 x_i 選擇較大系數(shù),即:
lambda' = max{(lambda, 1- lambda)}
其中,max代表返回兩個參數(shù)中的較大者。原因是我們要使用 y_i 當(dāng)作混合ROI的標(biāo)簽。本方法混合了沒有沒有標(biāo)簽的ROIs,這類似于傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法。它僅僅影響訓(xùn)練,并在測試過程中保持模型不變。使用這種方法,就可以獲得模擬重疊的,遮擋的和模糊的目標(biāo)的新ROIs。Figure3可視化出了這個方法的過程。
最終,使用此方法得到的新ROIs代替了原始的區(qū)域建議框。最終通過最小化這些生成樣本的原始損失函數(shù)來進(jìn)行訓(xùn)練。代碼級別的信息在Algorithm1中展示。
Figure3中x1,x2表示了兩個分別包含扇貝和海膽的ROI,而 x_3 表示從訓(xùn)練數(shù)據(jù)集中截出的有遮擋的樣本(海膽位于扇貝上),通過ROIMIX,x1和x2被混合為和 x_3 類似的 ilde{x} ,用于模擬遮擋和模糊的情況。
討論
論文通過ROIMIX來模擬目標(biāo)的重疊,遮擋,以幫助模型隱式的學(xué)習(xí)更好的密集目標(biāo)檢測能力。從統(tǒng)計學(xué)習(xí)理論的角度來看,ROIMIX是兩個候選框之間的一個線性插值結(jié)果,決策邊界可能會變得更平滑而不會急劇過度。具體來說,ROIMIX遵循VRM原理而不是ERM原理,從而使得深度學(xué)習(xí)模型泛化能力更強(qiáng)。遵循ERM原理訓(xùn)練得模型可以最大程度的減少經(jīng)驗風(fēng)險,以幫助模型更好的擬合訓(xùn)練數(shù)據(jù)。定義經(jīng)驗風(fēng)險 R_{delta} 為:
R_{delta}(f) = frac{1}{n} sum_{i=1}^{n} l(f(x_i), y_i)
其中 f 代表將 x 映射到 y 的非線性函數(shù), n 代表樣本數(shù), l 代表損失函數(shù)用來衡量 x_i 和 y_i
的距離。ROIMIX遵循VRM規(guī)則,并生成訓(xùn)練數(shù)據(jù)的鄰近分布。然后就可以用生成的數(shù)據(jù) (ilde{x},ilde{y}) 來代替原始的訓(xùn)練數(shù)據(jù) (x_i,y_i) ,并將期望風(fēng)險 R_v 近似為:
R_v(f) = frac{1}{n} sum_{i=1}^{n} l(f(ilde{x}),ilde{y})
因此訓(xùn)練過程已經(jīng)變成最大幅度的減少期望風(fēng)險 R_v 。在每一個輪次中,ROIMIX都會生成不同的鄰近訓(xùn)練數(shù)據(jù)。以這種方式,模型的魯棒性變得更高。
實(shí)驗
在URPC 2018上的實(shí)驗結(jié)果
論文在URPC 2018上對這個方法進(jìn)行了全面的評估。該數(shù)據(jù)集包含2901張訓(xùn)練圖像和800張測試圖像,涵蓋4個目標(biāo)類別,包括海參,海膽,扇貝和海星。
論文選擇在ImageNet上預(yù)訓(xùn)練的ResNet-101作為骨干網(wǎng)絡(luò),并從每張圖像中提取128個ROI特征。并對Faster-RCNN使用默認(rèn)的超參數(shù),評估方法使用平均精度(mAP)。在URPC 2018的實(shí)驗中,將Beta分布的超參數(shù)a設(shè)置為0.1。
實(shí)驗結(jié)果如Table1所示,從表中可以看到Max操作分別帶來了2.06%和1.8%的Map值提升,這說明了等式(3)的重要性。其次,在比較GT框和ROIs混合的效果時發(fā)現(xiàn),混合ROIs比混合GT對性能的改善貢獻(xiàn)更大。此外,論文還評估了圖像之間進(jìn)行交互的重要性。“SingleRoIMix”指的是在單個圖像上選擇和混合ROIs,而論文提出的方法是混合一個批次中多張圖像的ROIs。Table1中的第2行和第5行顯示,和單個圖像混合相比,在多個圖像之間混合ROIs可以提升0.41%Map值。
Figure4可視化了Baseline(Faster-RCNN)和本論文提出的方法的檢測結(jié)果。在Figure4(b)中標(biāo)記了3個紅色框,其中兩個是模糊和重疊的海參,另一個是不完整的扇貝。BaseLine模型無法檢測到三個紅色框中的目標(biāo),而論文中的方法可以成功檢測。這說明此方法對模糊,重疊的目標(biāo)有更好的檢測能力。
在PASCAL VOC上的實(shí)驗
論文還在PASCAL VOC數(shù)據(jù)集(07+12)上評估了此方法的表現(xiàn)。該模型在VOC 2007 Trainval和VOC 2012 Trainval的聯(lián)合訓(xùn)練集上進(jìn)行了訓(xùn)練,并在VOC 2007的測試集上進(jìn)行測試。這個實(shí)驗使用和4.1節(jié)完全一樣的設(shè)置,并根據(jù)經(jīng)驗將Beta分布的超參數(shù)a設(shè)為0.01。
論文指出,這應(yīng)該是第一份有關(guān)混合樣本數(shù)據(jù)增強(qiáng)目標(biāo)檢測的報告。并將此方法的實(shí)驗結(jié)果和Faster-RCNN作比較來評估ROIMIX的性能。結(jié)果如Table2所示。
可以看到,這種方法比BaseLine提高了0.8%個Map值,同時也可以看到ROIMIX在VOC上的提升比URPC上的提升少。一個可能的原因是URPC中存在更多重疊,被遮擋和模糊的對象,這可以通過本文提出的方法解決,因此提升更大。
穩(wěn)定性和魯棒性
論文分析了ROIMIX對訓(xùn)練穩(wěn)定的目標(biāo)檢測器的影響。并將ROIMIX訓(xùn)期間的平均精度(mAP)和BaseLine進(jìn)行了比較,論文在Figure5中可視化了Pascal VOC數(shù)據(jù)集和URPC數(shù)據(jù)集的結(jié)果。
首先,論文觀察到在兩個訓(xùn)練集中訓(xùn)練結(jié)束時,ROIMIX的mAP值均比基準(zhǔn)線高得多,在mAP達(dá)到最高點(diǎn)之后,隨著訓(xùn)練輪次的增加,BaseLine開始面臨過擬合。
另一方面,ROIMIX方法在Pascal VOC中平穩(wěn)下降,并且在較大幅度上保持其Map曲線優(yōu)于BaseLine。在URPC數(shù)據(jù)集中,ROIMIX在達(dá)到mAP的最高點(diǎn)后隨著時間的增加趨于穩(wěn)定。此外ROIMIX和BaseLine方法在訓(xùn)練期間最大的mAP差別達(dá)到2.04%。結(jié)果表明ROIMIX生成的各種鄰近訓(xùn)練數(shù)據(jù)可以減小過擬合的風(fēng)險,提高訓(xùn)練過程的穩(wěn)定性。
此外,論文通過應(yīng)用5種類型的人工噪聲樣本(高斯噪聲,泊松噪聲,鹽噪聲,胡椒噪聲和椒鹽噪聲)來評估模型的魯棒性。
Figure6(a)可視化了帶有胡椒噪聲的樣本。論文使用在ImageNet預(yù)訓(xùn)練的ResNet-101做骨干網(wǎng)絡(luò),其設(shè)置與4.1節(jié)中的設(shè)置相同。然后評估每種類型噪聲樣本使用BaseLine,GTMix和RoIMix得到的結(jié)果,并在Figure6(b)中可視化。在這5種類型的噪聲中,ROIMIX和BaseLine之間的最大性能差異為9.05%個mAP值。直方圖表示這種方法對噪聲的魯棒能力更強(qiáng)。
除了人工噪聲,論文還探索了對測試圖像應(yīng)用高斯模糊后來對模糊目標(biāo)進(jìn)行檢測的情況。結(jié)果如Table3所示,可以看到使用ROIMIX后性能提高了0.7%個mAP。這些實(shí)驗進(jìn)一步說明,ROIMIX具有更好的魯棒性。
結(jié)論
這篇論文提出了ROIMIX用于水下目標(biāo)檢測的方法。這應(yīng)該是在多幅圖像之間進(jìn)行ROIs融合以生成不同訓(xùn)練樣本的第一項工作。ROIMIX旨在模擬重疊,遮擋,和模糊的目標(biāo),從而幫助模型隱式地學(xué)習(xí)檢測水下目標(biāo)的能力。實(shí)驗表明,本文提出的方法可以將URPC的性能提高1.18%mAP,將Pascal VOC的性能提高0.8%mAP。此外,ROIMIX具有更高的穩(wěn)定性和魯棒性。ROIMIX被作者應(yīng)用在URPC 2019目標(biāo)檢測大賽中并獲得冠軍。
總結(jié)
以上是生活随笔為你收集整理的多选框位置调整_URPC 2019 水下目标检测竞赛冠军方案:多图像融合增强的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 简述python中面向对象的概念_简述P
- 下一篇: 毛巾变硬了怎么办