當(dāng)前位置：首頁(yè) > 人工智能 > 目标检测 >内容正文

目标检测

【弱监督显著目标检测论文】Weakly-Supervised Salient Object Detection Using Point Supervison

發(fā)布時(shí)間：2023/12/20 目标检测 53 豆豆

生活随笔收集整理的這篇文章主要介紹了【弱监督显著目标检测论文】Weakly-Supervised Salient Object Detection Using Point Supervison 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

2022年在AAAI上發(fā)表的一篇使用點(diǎn)監(jiān)督的弱監(jiān)督顯著目標(biāo)檢測(cè)論文
論文原文
代碼地址

文章目錄

摘要
一、創(chuàng)新點(diǎn)
二、方法
- 1.Adaptive Flood Filling
- 2.Non-Salient object Suppression (NSS)
- 3.Network Details（網(wǎng)絡(luò)詳情）
- - Transformer part
  - Edge-preserving Decoder(邊緣保留解碼器)
  - Loss Function
三、實(shí)驗(yàn)

摘要

目前最先進(jìn)的顯著性檢測(cè)模型嚴(yán)重依賴(lài)于精確的像素級(jí)注釋的大型數(shù)據(jù)集，這花費(fèi)了大量的準(zhǔn)備時(shí)間。而一些弱監(jiān)督的方法可以來(lái)緩解這一問(wèn)題，如圖像標(biāo)簽、邊界框標(biāo)簽和涂鴉標(biāo)簽，但點(diǎn)標(biāo)簽還沒(méi)有在這個(gè)領(lǐng)域中被探索。在本文中，我們通過(guò)重新標(biāo)記DUTS數(shù)據(jù)集，從而提出了一個(gè)新的點(diǎn)監(jiān)督數(shù)據(jù)集（P-DUTS）。在P-DUTS中，每個(gè)顯著對(duì)象只有一個(gè)標(biāo)記點(diǎn)。為了推斷顯著圖，我們首先設(shè)計(jì)了一種自適應(yīng)掩蔽泛洪填充算法來(lái)生成偽標(biāo)簽。然后設(shè)計(jì)了一個(gè)基于transformer的點(diǎn)監(jiān)督顯著性檢測(cè)模型，生成第一輪顯著圖。然而，我們發(fā)現(xiàn)，由于標(biāo)簽的稀疏性，弱監(jiān)督模型往往會(huì)退化為一般的前景檢測(cè)模型。為了解決這個(gè)問(wèn)題，我們提出了一種非顯著性抑制（NSS）方法來(lái)優(yōu)化第一輪生成的錯(cuò)誤顯著圖，并利用它們進(jìn)行第二輪的訓(xùn)練。在五個(gè)最大的基準(zhǔn)數(shù)據(jù)集上進(jìn)行的綜合實(shí)驗(yàn)表明，我們的方法優(yōu)于以前受過(guò)更強(qiáng)監(jiān)督訓(xùn)練的最先進(jìn)的方法，甚至超過(guò)了幾個(gè)完全監(jiān)督的最先進(jìn)的模型。代碼是可用的。

一、創(chuàng)新點(diǎn)

我們提出了一種新的弱監(jiān)督顯著目標(biāo)檢測(cè)框架，該方法通過(guò)點(diǎn)注釋學(xué)習(xí)檢測(cè)顯著目標(biāo)，并引入了一種新的基于點(diǎn)的顯著性數(shù)據(jù)集P-DUTS。
我們發(fā)現(xiàn)了弱監(jiān)督顯著性檢測(cè)模型的退化問(wèn)題，并提出了非顯著性對(duì)象抑制（NSS）方法來(lái)顯式地過(guò)濾掉非顯著性但被檢測(cè)到的對(duì)象。
我們?cè)O(shè)計(jì)了一個(gè)基于transformer的點(diǎn)監(jiān)督顯著目標(biāo)檢測(cè)模型，該模型與我們?cè)O(shè)計(jì)的自適應(yīng)泛洪填充合作，不僅優(yōu)于現(xiàn)有的弱監(jiān)督方法和更強(qiáng)的監(jiān)督，甚至超過(guò)了許多完全監(jiān)督方法。

二、方法

1.Adaptive Flood Filling

對(duì)于常用的弱監(jiān)督密集預(yù)測(cè)任務(wù)，首先采用生成偽標(biāo)簽，然后使用偽標(biāo)簽進(jìn)行網(wǎng)絡(luò)訓(xùn)練的方法。由于稀疏標(biāo)簽只覆蓋了物體區(qū)域的一小部分，這限制了模型感知物體結(jié)構(gòu)的能力，（Zhang et al. 2020）利用邊緣檢測(cè)器（Liu et al. 2017）生成邊緣來(lái)監(jiān)督模型的訓(xùn)練間接地補(bǔ)充結(jié)構(gòu)。與它們不同的是，我們直接使用邊緣來(lái)進(jìn)行泛洪填充。泛洪填充從一個(gè)起始節(jié)點(diǎn)開(kāi)始，搜索其鄰域（4或8），并提取連接到它的附近節(jié)點(diǎn)，直到封閉區(qū)域中的所有節(jié)點(diǎn)都被處理完畢（算法1）。它是從一個(gè)區(qū)域中提取幾個(gè)連接的點(diǎn)，或?qū)⑺鼈兣c其他相鄰的區(qū)域分開(kāi)。但是，由于邊緣檢測(cè)器產(chǎn)生的邊緣通常是不連續(xù)和模糊的（圖2的頂部），直接應(yīng)用于泛洪填充可能會(huì)導(dǎo)致整個(gè)圖像被填充。因此，我們?cè)O(shè)計(jì)了一個(gè)自適應(yīng)掩模，一個(gè)半徑隨圖像大小變化的圓來(lái)緩解這一問(wèn)題。具體來(lái)說(shuō)，半徑r被定義為

其中I為輸入圖像，r (I)為輸入圖像I對(duì)應(yīng)的掩模半徑。hI和wI分別表示輸入圖像的長(zhǎng)度和寬度。γ表示超參數(shù)。
標(biāo)記的實(shí)體圖可以表示為： S = {Sb、Sif |i = 1、···、N}，其中Sb和Sif分別表示背景像素和第i個(gè)標(biāo)記的顯著目標(biāo)的位置坐標(biāo)。然后，這些圓掩模的集合可以定義為MrS (I) = Cr (I) S1f∪···∪Cr(I)SNf∪Cr(I)Sb，其中C表示以下角為中心，以上角為半徑的圓。與（Zhang et al. 2020）相似，我們還使用邊緣檢測(cè)器（Liu et al. 2017）檢測(cè)圖像的邊緣： E (I)，其中E（·）表示邊緣檢測(cè)器，I表示輸入圖像，E表示生成的邊緣。

算法1即為泛洪填充算法，采用4鄰域泛洪的方式。
4鄰域泛洪：尋找像素點(diǎn)(x, y)的上下左右四個(gè)臨近像素點(diǎn)，如果沒(méi)有被填充，則填充它們，并且繼續(xù)尋找它們的四鄰域像素，直到封閉區(qū)域完全被新顏色填充。

參考原文：OpenCV4 詳解《圖像分割之泛洪填充算法(Flood Fill Algorithm)》

我們使用e和MrS (I)的并集，E (I)∪MrS (I)，將圖像I劃分為多個(gè)連接的區(qū)域。

其中F (I)表示應(yīng)用泛洪填充后獲得的連通區(qū)域（圖2底部）。

2.Non-Salient object Suppression (NSS)

我們觀察到，由于弱監(jiān)督標(biāo)簽的稀疏性，監(jiān)督信號(hào)只能覆蓋圖像的一小部分區(qū)域，導(dǎo)致模型只學(xué)習(xí)突出學(xué)習(xí)到的對(duì)象，而忽略當(dāng)前場(chǎng)景中不應(yīng)該突出的對(duì)象（圖4(a)中的紅框）。

為了抑制非顯著目標(biāo)，我們提出了一種簡(jiǎn)單而有效的方法，即利用監(jiān)督信號(hào)提供的位置線(xiàn)索，填充生成的位置信號(hào)突出顯示的對(duì)象，以抑制非突出顯示的對(duì)象。并且得到的顯著的目標(biāo)區(qū)域(圖3(b)中的紅色區(qū)域。)可以通過(guò)下列方式獲得：

其中F（·）表示泛洪填充，S?Sb = {Sif |i = 1，…，N}表示減法，P^1st表示第一輪訓(xùn)練后生成的偽標(biāo)記，由密集CRF細(xì)化（Kr¨ahenb¨uhl and Koltun 2011）。
由于我們?cè)诘谝惠営?xùn)練中只為顯著目標(biāo)提供了內(nèi)部局部標(biāo)簽，這可能導(dǎo)致模型無(wú)法準(zhǔn)確區(qū)分邊緣，因此我們對(duì)核大小為10的Pf進(jìn)行展開(kāi)操作。擴(kuò)展區(qū)域?yàn)椴淮_定區(qū)域（圖3(b)中的黑色區(qū)域），其余區(qū)域?yàn)楸尘皡^(qū)域（圖3(b)中的綠色區(qū)域）。這被記為P^2nd，作為第二輪訓(xùn)練的標(biāo)簽。
如圖4中的測(cè)試示例所示，由于標(biāo)簽的稀疏性，模型往往會(huì)檢測(cè)到非顯著性目標(biāo)。事實(shí)上，該模型會(huì)退化為一個(gè)能夠檢測(cè)先前學(xué)習(xí)到的對(duì)象的模型。通過(guò)再次使用來(lái)自監(jiān)督點(diǎn)的位置線(xiàn)索，我們可以利用NSS成功地抑制非顯著性目標(biāo)。

3.Network Details（網(wǎng)絡(luò)詳情）

稀疏標(biāo)記顯著性檢測(cè)的困難在于該模型只能獲得局部地面真實(shí)標(biāo)簽，缺乏對(duì)全局信息的指導(dǎo)。我們認(rèn)為，通過(guò)已標(biāo)記位置和未標(biāo)記位置之間的相似性來(lái)建立它們之間的聯(lián)系，以獲得未標(biāo)記區(qū)域的顯著性值，可以顯著緩解這一問(wèn)題。考慮到vision transformer（ViT）基于相似性的本質(zhì)（多索維茨基等人，2020年），我們利用 hyper ViT（即“ResNet-50+ViT-base”）作為我們的網(wǎng)絡(luò)骨干來(lái)提取特征并計(jì)算自相似度。

Transformer part

具體來(lái)說(shuō)，對(duì)于大小為3×H×W的輸入圖像，CNN嵌入部分生成C×H /16×H/16特征圖。ResNet- 50的多階段特征記為R = {Ri|i = 1,2、3、4,5}。然后，Transformer編碼器以C×H/16×H/16的位置嵌入和C×H/16×H/16的扁平特征的總和作為輸入。經(jīng)過(guò)12層自注意層后，transformer編碼器部分輸出特征的C×H/16×H/16。

Edge-preserving Decoder(邊緣保留解碼器)

邊緣保留解碼器由兩個(gè)組件組成，一個(gè)顯著性解碼器和一個(gè)近似邊緣檢測(cè)器（見(jiàn)圖2）。顯著性解碼器是四層級(jí)聯(lián)卷積層，其中每一層都是批歸一化（BN）層、ReLU激活層和上采樣層，它們以Transformer編碼器的特征作為輸入。我們將每一層顯著性解碼器的相應(yīng)特征表示為D = {Di|i = 1,2,3,4}。
對(duì)于后一部分，由于弱注釋缺乏結(jié)構(gòu)和細(xì)節(jié)，我們?cè)O(shè)計(jì)了一個(gè)邊緣解碼器流作為近似邊緣檢測(cè)器來(lái)生成結(jié)構(gòu)，并通過(guò)使用由真實(shí)邊緣檢測(cè)器生成的邊來(lái)約束輸出，以此克服弱標(biāo)簽的缺點(diǎn)。具體來(lái)說(shuō)，近似邊緣檢測(cè)器的輸出可以表示為fe = σ（cat（R3，D2）），其中σ表示一個(gè)單一的3×3卷積層，然后是BN和ReLU層。通過(guò)在fe之后添加3×3凸層得到邊緣映射e，然后由真實(shí)邊緣檢測(cè)器生成的邊緣映射進(jìn)行約束。然后，通過(guò)將fe與D3、cat（fe、D3）合并，并通過(guò)以下兩個(gè)卷積層，得到多通道特征fs。與e類(lèi)似，最終的單通道圖也可以以同樣的方式獲得。

Loss Function

在我們的網(wǎng)絡(luò)中，采用了二元交叉熵?fù)p失、部分交叉熵?fù)p失（Tang等人2018年）和門(mén)控CRF損失（Yu等人2021年；Obukhov等人2019年）。對(duì)于保邊解碼器流，我們使用二元交叉熵?fù)p失來(lái)約束e：

其中y為真實(shí)圖，e表示邊緣映射，r和c表示圖像的行坐標(biāo)和列坐標(biāo)。對(duì)于顯著性解碼器流，采用了部分交叉熵?fù)p失和門(mén)控CRF損耗。部分二元交叉熵?fù)p失只關(guān)注確定區(qū)域，而忽略不確定區(qū)域：

其中J表示標(biāo)記區(qū)域，g表示真實(shí)圖，s表示預(yù)測(cè)的顯著圖。
為了學(xué)習(xí)更好的目標(biāo)結(jié)構(gòu)和邊緣，遵循（Yu et al. 2021），在我們的損失函數(shù)中使用了門(mén)控CRF：

其中Ki為像素i的周?chē)鷎 × k的核所覆蓋的區(qū)域，d(i, j)定義為：

其中si和sj為位置i和j處s的顯著性值，|·|表示L1距離。f (i、j）為高斯核帶寬濾波器：

其中1/w為歸一化的權(quán)值，I（·）和PT（·）為像素的RGB值和像素的位置，σP T和σI為控制高斯核尺度的超參數(shù)。所以總損失函數(shù)可以定義為：

其中，α1，α2，α3是權(quán)重。在我們的實(shí)驗(yàn)中，它們都被設(shè)置為1。

三、實(shí)驗(yàn)

超參數(shù) γ的影響：

γ=5時(shí)效果最好

總結(jié)

以上是生活随笔為你收集整理的【弱监督显著目标检测论文】Weakly-Supervised Salient Object Detection Using Point Supervison的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： ffmpeg+java截取视频帧
下一篇： python中init和属性_pytho