【弱监督显著目标检测论文】Weakly-Supervised Salient Object Detection Using Point Supervison
2022年在AAAI上發(fā)表的一篇使用點(diǎn)監(jiān)督的弱監(jiān)督顯著目標(biāo)檢測(cè)論文
論文原文
代碼地址
文章目錄
- 摘要
- 一、創(chuàng)新點(diǎn)
- 二、方法
- 1.Adaptive Flood Filling
- 2.Non-Salient object Suppression (NSS)
- 3.Network Details(網(wǎng)絡(luò)詳情)
- Transformer part
- Edge-preserving Decoder(邊緣保留解碼器)
- Loss Function
- 三、實(shí)驗(yàn)
摘要
目前最先進(jìn)的顯著性檢測(cè)模型嚴(yán)重依賴(lài)于精確的像素級(jí)注釋的大型數(shù)據(jù)集,這花費(fèi)了大量的準(zhǔn)備時(shí)間。而一些弱監(jiān)督的方法可以來(lái)緩解這一問(wèn)題,如圖像標(biāo)簽、邊界框標(biāo)簽和涂鴉標(biāo)簽,但點(diǎn)標(biāo)簽還沒(méi)有在這個(gè)領(lǐng)域中被探索。在本文中,我們通過(guò)重新標(biāo)記DUTS數(shù)據(jù)集,從而提出了一個(gè)新的點(diǎn)監(jiān)督數(shù)據(jù)集(P-DUTS)。在P-DUTS中,每個(gè)顯著對(duì)象只有一個(gè)標(biāo)記點(diǎn)。為了推斷顯著圖,我們首先設(shè)計(jì)了一種自適應(yīng)掩蔽泛洪填充算法來(lái)生成偽標(biāo)簽。然后設(shè)計(jì)了一個(gè)基于transformer的點(diǎn)監(jiān)督顯著性檢測(cè)模型,生成第一輪顯著圖。然而,我們發(fā)現(xiàn),由于標(biāo)簽的稀疏性,弱監(jiān)督模型往往會(huì)退化為一般的前景檢測(cè)模型。為了解決這個(gè)問(wèn)題,我們提出了一種非顯著性抑制(NSS)方法來(lái)優(yōu)化第一輪生成的錯(cuò)誤顯著圖,并利用它們進(jìn)行第二輪的訓(xùn)練。在五個(gè)最大的基準(zhǔn)數(shù)據(jù)集上進(jìn)行的綜合實(shí)驗(yàn)表明,我們的方法優(yōu)于以前受過(guò)更強(qiáng)監(jiān)督訓(xùn)練的最先進(jìn)的方法,甚至超過(guò)了幾個(gè)完全監(jiān)督的最先進(jìn)的模型。代碼是可用的。
一、創(chuàng)新點(diǎn)
- 我們提出了一種新的弱監(jiān)督顯著目標(biāo)檢測(cè)框架,該方法通過(guò)點(diǎn)注釋學(xué)習(xí)檢測(cè)顯著目標(biāo),并引入了一種新的基于點(diǎn)的顯著性數(shù)據(jù)集P-DUTS。
- 我們發(fā)現(xiàn)了弱監(jiān)督顯著性檢測(cè)模型的退化問(wèn)題,并提出了非顯著性對(duì)象抑制(NSS)方法來(lái)顯式地過(guò)濾掉非顯著性但被檢測(cè)到的對(duì)象。
- 我們?cè)O(shè)計(jì)了一個(gè)基于transformer的點(diǎn)監(jiān)督顯著目標(biāo)檢測(cè)模型,該模型與我們?cè)O(shè)計(jì)的自適應(yīng)泛洪填充合作,不僅優(yōu)于現(xiàn)有的弱監(jiān)督方法和更強(qiáng)的監(jiān)督,甚至超過(guò)了許多完全監(jiān)督方法。
二、方法
1.Adaptive Flood Filling
對(duì)于常用的弱監(jiān)督密集預(yù)測(cè)任務(wù),首先采用生成偽標(biāo)簽,然后使用偽標(biāo)簽進(jìn)行網(wǎng)絡(luò)訓(xùn)練的方法。由于稀疏標(biāo)簽只覆蓋了物體區(qū)域的一小部分,這限制了模型感知物體結(jié)構(gòu)的能力,(Zhang et al. 2020)利用邊緣檢測(cè)器(Liu et al. 2017)生成邊緣來(lái)監(jiān)督模型的訓(xùn)練間接地補(bǔ)充結(jié)構(gòu)。與它們不同的是,我們直接使用邊緣來(lái)進(jìn)行泛洪填充。泛洪填充從一個(gè)起始節(jié)點(diǎn)開(kāi)始,搜索其鄰域(4或8),并提取連接到它的附近節(jié)點(diǎn),直到封閉區(qū)域中的所有節(jié)點(diǎn)都被處理完畢(算法1)。它是從一個(gè)區(qū)域中提取幾個(gè)連接的點(diǎn),或?qū)⑺鼈兣c其他相鄰的區(qū)域分開(kāi)。但是,由于邊緣檢測(cè)器產(chǎn)生的邊緣通常是不連續(xù)和模糊的(圖2的頂部),直接應(yīng)用于泛洪填充可能會(huì)導(dǎo)致整個(gè)圖像被填充。因此,我們?cè)O(shè)計(jì)了一個(gè)自適應(yīng)掩模,一個(gè)半徑隨圖像大小變化的圓來(lái)緩解這一問(wèn)題。具體來(lái)說(shuō),半徑r被定義為
其中I為輸入圖像,r (I)為輸入圖像I對(duì)應(yīng)的掩模半徑。hI和wI分別表示輸入圖像的長(zhǎng)度和寬度。γ表示超參數(shù)。
標(biāo)記的實(shí)體圖可以表示為: S = {Sb、Sif |i = 1、···、N},其中Sb和Sif分別表示背景像素和第i個(gè)標(biāo)記的顯著目標(biāo)的位置坐標(biāo)。然后,這些圓掩模的集合可以定義為MrS (I) = Cr (I) S1f∪···∪Cr(I)SNf∪Cr(I)Sb,其中C表示以下角為中心,以上角為半徑的圓。與(Zhang et al. 2020)相似,我們還使用邊緣檢測(cè)器(Liu et al. 2017)檢測(cè)圖像的邊緣: E (I),其中E(·)表示邊緣檢測(cè)器,I表示輸入圖像,E表示生成的邊緣。
算法1即為泛洪填充算法,采用4鄰域泛洪的方式。
4鄰域泛洪:尋找像素點(diǎn)(x, y)的上下左右四個(gè)臨近像素點(diǎn),如果沒(méi)有被填充,則填充它們,并且繼續(xù)尋找它們的四鄰域像素,直到封閉區(qū)域完全被新顏色填充。
參考原文:OpenCV4 詳解《圖像分割之泛洪填充算法(Flood Fill Algorithm)》
我們使用e和MrS (I)的并集,E (I)∪MrS (I),將圖像I劃分為多個(gè)連接的區(qū)域。
其中F (I)表示應(yīng)用泛洪填充后獲得的連通區(qū)域(圖2底部)。
2.Non-Salient object Suppression (NSS)
我們觀察到,由于弱監(jiān)督標(biāo)簽的稀疏性,監(jiān)督信號(hào)只能覆蓋圖像的一小部分區(qū)域,導(dǎo)致模型只學(xué)習(xí)突出學(xué)習(xí)到的對(duì)象,而忽略當(dāng)前場(chǎng)景中不應(yīng)該突出的對(duì)象(圖4(a)中的紅框)。
為了抑制非顯著目標(biāo),我們提出了一種簡(jiǎn)單而有效的方法,即利用監(jiān)督信號(hào)提供的位置線(xiàn)索,填充生成的位置信號(hào)突出顯示的對(duì)象,以抑制非突出顯示的對(duì)象。并且得到的顯著的目標(biāo)區(qū)域(圖3(b)中的紅色區(qū)域。)可以通過(guò)下列方式獲得:
其中F(·)表示泛洪填充,S?Sb = {Sif |i = 1,…,N}表示減法,P1st表示第一輪訓(xùn)練后生成的偽標(biāo)記,由密集CRF細(xì)化(Kr¨ahenb¨uhl and Koltun 2011)。
由于我們?cè)诘谝惠営?xùn)練中只為顯著目標(biāo)提供了內(nèi)部局部標(biāo)簽,這可能導(dǎo)致模型無(wú)法準(zhǔn)確區(qū)分邊緣,因此我們對(duì)核大小為10的Pf進(jìn)行展開(kāi)操作。擴(kuò)展區(qū)域?yàn)椴淮_定區(qū)域(圖3(b)中的黑色區(qū)域),其余區(qū)域?yàn)楸尘皡^(qū)域(圖3(b)中的綠色區(qū)域)。這被記為P2nd,作為第二輪訓(xùn)練的標(biāo)簽。
如圖4中的測(cè)試示例所示,由于標(biāo)簽的稀疏性,模型往往會(huì)檢測(cè)到非顯著性目標(biāo)。事實(shí)上,該模型會(huì)退化為一個(gè)能夠檢測(cè)先前學(xué)習(xí)到的對(duì)象的模型。通過(guò)再次使用來(lái)自監(jiān)督點(diǎn)的位置線(xiàn)索,我們可以利用NSS成功地抑制非顯著性目標(biāo)。
3.Network Details(網(wǎng)絡(luò)詳情)
稀疏標(biāo)記顯著性檢測(cè)的困難在于該模型只能獲得局部地面真實(shí)標(biāo)簽,缺乏對(duì)全局信息的指導(dǎo)。我們認(rèn)為,通過(guò)已標(biāo)記位置和未標(biāo)記位置之間的相似性來(lái)建立它們之間的聯(lián)系,以獲得未標(biāo)記區(qū)域的顯著性值,可以顯著緩解這一問(wèn)題。考慮到vision transformer(ViT)基于相似性的本質(zhì)(多索維茨基等人,2020年),我們利用 hyper ViT(即“ResNet-50+ViT-base”)作為我們的網(wǎng)絡(luò)骨干來(lái)提取特征并計(jì)算自相似度。
Transformer part
具體來(lái)說(shuō),對(duì)于大小為3×H×W的輸入圖像,CNN嵌入部分生成C×H /16×H/16特征圖。ResNet- 50的多階段特征記為R = {Ri|i = 1,2、3、4,5}。然后,Transformer編碼器以C×H/16×H/16的位置嵌入和C×H/16×H/16的扁平特征的總和作為輸入。經(jīng)過(guò)12層自注意層后,transformer編碼器部分輸出特征的C×H/16×H/16。
Edge-preserving Decoder(邊緣保留解碼器)
邊緣保留解碼器由兩個(gè)組件組成,一個(gè)顯著性解碼器和一個(gè)近似邊緣檢測(cè)器(見(jiàn)圖2)。顯著性解碼器是四層級(jí)聯(lián)卷積層,其中每一層都是批歸一化(BN)層、ReLU激活層和上采樣層,它們以Transformer編碼器的特征作為輸入。我們將每一層顯著性解碼器的相應(yīng)特征表示為D = {Di|i = 1,2,3,4}。
對(duì)于后一部分,由于弱注釋缺乏結(jié)構(gòu)和細(xì)節(jié),我們?cè)O(shè)計(jì)了一個(gè)邊緣解碼器流作為近似邊緣檢測(cè)器來(lái)生成結(jié)構(gòu),并通過(guò)使用由真實(shí)邊緣檢測(cè)器生成的邊來(lái)約束輸出,以此克服弱標(biāo)簽的缺點(diǎn)。具體來(lái)說(shuō),近似邊緣檢測(cè)器的輸出可以表示為fe = σ(cat(R3,D2)),其中σ表示一個(gè)單一的3×3卷積層,然后是BN和ReLU層。通過(guò)在fe之后添加3×3凸層得到邊緣映射e,然后由真實(shí)邊緣檢測(cè)器生成的邊緣映射進(jìn)行約束。然后,通過(guò)將fe與D3、cat(fe、D3)合并,并通過(guò)以下兩個(gè)卷積層,得到多通道特征fs。與e類(lèi)似,最終的單通道圖也可以以同樣的方式獲得。
Loss Function
在我們的網(wǎng)絡(luò)中,采用了二元交叉熵?fù)p失、部分交叉熵?fù)p失(Tang等人2018年)和門(mén)控CRF損失(Yu等人2021年;Obukhov等人2019年)。對(duì)于保邊解碼器流,我們使用二元交叉熵?fù)p失來(lái)約束e:
其中y為真實(shí)圖,e表示邊緣映射,r和c表示圖像的行坐標(biāo)和列坐標(biāo)。對(duì)于顯著性解碼器流,采用了部分交叉熵?fù)p失和門(mén)控CRF損耗。部分二元交叉熵?fù)p失只關(guān)注確定區(qū)域,而忽略不確定區(qū)域:
其中J表示標(biāo)記區(qū)域,g表示真實(shí)圖,s表示預(yù)測(cè)的顯著圖。
為了學(xué)習(xí)更好的目標(biāo)結(jié)構(gòu)和邊緣,遵循(Yu et al. 2021),在我們的損失函數(shù)中使用了門(mén)控CRF:
其中Ki為像素i的周?chē)鷎 × k的核所覆蓋的區(qū)域,d(i, j)定義為:
其中si和sj為位置i和j處s的顯著性值,|·|表示L1距離。f (i、j)為高斯核帶寬濾波器:
其中1/w為歸一化的權(quán)值,I(·)和PT(·)為像素的RGB值和像素的位置,σP T和σI為控制高斯核尺度的超參數(shù)。所以總損失函數(shù)可以定義為:
其中,α1,α2,α3是權(quán)重。在我們的實(shí)驗(yàn)中,它們都被設(shè)置為1。
三、實(shí)驗(yàn)
超參數(shù) γ的影響:
γ=5時(shí)效果最好
總結(jié)
以上是生活随笔為你收集整理的【弱监督显著目标检测论文】Weakly-Supervised Salient Object Detection Using Point Supervison的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: ffmpeg+java截取视频帧
- 下一篇: python中init和属性_pytho