语义分割中的增量学习
盡管深度結(jié)構(gòu)在許多任務(wù)中都有效,但它們?nèi)匀皇艿揭恍┲匾拗?。尤其是,它們?nèi)菀自馐転?zāi)難性的遺忘,即,由于需要新的類而未保留原始訓(xùn)練集時(shí),當(dāng)要求他們更新模型時(shí),他們的表現(xiàn)很差。本文在語義分割的背景下解決了這個(gè)問題。當(dāng)前的策略無法完成此任務(wù),因?yàn)樗麄儧]有考慮語義分割的特殊方面:由于每個(gè)訓(xùn)練步驟僅為所有可能類別的子集提供注釋,因此背景類別的像素(即不屬于任何其他像素的像素)類)表現(xiàn)出語義分布偏移。在這項(xiàng)工作中,我們回顧了經(jīng)典的增量學(xué)習(xí)方法,提出了一個(gè)新的基于蒸餾的框架,該框架明確地說明了這一轉(zhuǎn)變。此外,我們引入了一種新穎的策略來初始化分類器的參數(shù),從而防止偏向于背景類的預(yù)測。我們通過對Pascal-VOC 2012和ADE20K數(shù)據(jù)集進(jìn)行了廣泛評估,證明了我們的方法的有效性,大大優(yōu)于最新的增量學(xué)習(xí)方法。
1. Introduction
語義分割是計(jì)算機(jī)視覺中的一個(gè)基本問題。在過去的幾年中,由于深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn)和大規(guī)模的人類注釋數(shù)據(jù)集的出現(xiàn)[11,39],現(xiàn)有技術(shù)水平已得到顯著改善[20,8,38,19,37] 。當(dāng)前的方法是通過利用完全卷積網(wǎng)絡(luò)(FCN)[20]將深層結(jié)構(gòu)從圖像級擴(kuò)展到像素級分類而得出的。多年來,基于FCN的語義分割模型已經(jīng)以多種方式進(jìn)行了改進(jìn),例如通過利用多尺度表示[19,37],對空間依賴性和上下文提示進(jìn)行建模[6,5,8]或考慮注意力模型[7]。
盡管如此,當(dāng)發(fā)現(xiàn)新類別時(shí),現(xiàn)有的語義分割方法仍未設(shè)計(jì)為逐步更新其內(nèi)部分類模型。雖然深網(wǎng)無疑是強(qiáng)大的,但眾所周知,它們在增量學(xué)習(xí)環(huán)境中的能力是有限的[16]。實(shí)際上,深層體系結(jié)構(gòu)在更新其參數(shù)以學(xué)習(xí)新類別的同時(shí),還要保留舊版本的良好性能(災(zāi)難性的遺忘[23])。
圖1:用于語義分段的增量學(xué)習(xí)中背景類的語義轉(zhuǎn)換的插圖。 黃色框表示學(xué)習(xí)步驟中提供的基本事實(shí),而灰色框表示未標(biāo)記的類。 由于不同的學(xué)習(xí)步驟具有不同的標(biāo)簽空間,因此在步驟t,舊類(例如人)和看不見的類(例如汽車)可能會(huì)被標(biāo)記為當(dāng)前地面真理的背景。 在這里,我們顯示了單類學(xué)習(xí)步驟的具體情況,但我們解決了添加任意數(shù)量的類的一般情況。
雖然增量學(xué)習(xí)的問題已在對象識別[18、17、4、28、15]和檢測[32]中得到了傳統(tǒng)解決,但對語義分割的關(guān)注卻很少。在這里,我們填補(bǔ)了這一空白,提出了一種用于語義分割的增量類學(xué)習(xí)(ICL)方法。受先前關(guān)于圖像分類的方法的啟發(fā)[18、28、3],我們通過知識蒸餾來應(yīng)對災(zāi)難性的遺忘[14]。但是,我們認(rèn)為(并通過實(shí)驗(yàn)證明)在這種情況下,僅靠天真的應(yīng)用先前的知識蒸餾策略是不夠的。實(shí)際上,語義分割的一個(gè)特殊方面是特殊類(背景類)的存在,它表示未分配給任何給定對象類別的像素。雖然此類的存在在一定程度上影響了傳統(tǒng)的脫機(jī)語義分割方法的設(shè)計(jì),但在增量學(xué)習(xí)環(huán)境中卻并非如此。如圖1所示,可以合理地假設(shè)與背景類相關(guān)聯(lián)的語義會(huì)隨時(shí)間變化。換句話說,在學(xué)習(xí)步驟期間與背景相關(guān)聯(lián)的像素像素可以在后續(xù)步驟中被分配給特定的對象類別,反之亦然,從而加劇了災(zāi)難性的遺忘。為了克服這個(gè)問題,我們通過引入兩個(gè)新的損失項(xiàng)來適當(dāng)考慮背景類中的語義分布變化,從而重新審視基于經(jīng)典蒸餾的增量學(xué)習(xí)框架[18],從而引入了第一個(gè)針對語義分割的ICL方法。我們在兩個(gè)數(shù)據(jù)集Pascal-VOC [11]和ADE20K [39]上廣泛評估了我們的方法,表明我們的方法以及新穎的分類器初始化策略在很大程度上優(yōu)于傳統(tǒng)的ICL方法。
總而言之,本文的貢獻(xiàn)如下:
?我們研究了用于語義分割的增量式課堂學(xué)習(xí)的任務(wù),尤其是分析了由于背景課堂的存在而引起的分布轉(zhuǎn)移的問題。
?我們提出了一個(gè)新的目標(biāo)函數(shù),并引入了一種特定的分類器初始化策略,以明確應(yīng)對背景類不斷發(fā)展的語義。 我們證明了我們的方法極大地減輕了災(zāi)難性的遺忘,從而達(dá)到了最先進(jìn)的水平。
?考慮到不同的實(shí)驗(yàn)設(shè)置,我們在兩個(gè)流行的語義細(xì)分?jǐn)?shù)據(jù)集上對幾種先前的ICL方法進(jìn)行了基準(zhǔn)測試。 我們希望我們的結(jié)果可以為將來的工作提供參考。
2. Related Works
語義分割是計(jì)算機(jī)視覺中的一個(gè)基本問題。在過去的幾年中,由于深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn)和大規(guī)模的人類注釋數(shù)據(jù)集的出現(xiàn)[11,39],現(xiàn)有技術(shù)水平已得到顯著改善[20,8,38,19,37] 。當(dāng)前的方法是通過利用完全卷積網(wǎng)絡(luò)(FCN)[20]將深層結(jié)構(gòu)從圖像級擴(kuò)展到像素級分類而得出的。多年來,基于FCN的語義分割模型已經(jīng)以多種方式進(jìn)行了改進(jìn),例如通過利用多尺度表示[19,37],對空間依存關(guān)系和上下文提示進(jìn)行建模[6、5、8]或考慮注意力模型[7]。方法[18]進(jìn)行細(xì)分并設(shè)計(jì)一種策略來選擇舊數(shù)據(jù)集的相關(guān)樣本排練。 Taras等。提出了一種類似的分割遙感數(shù)據(jù)的方法。不同的是,Michieli等。 [24]考慮在特定環(huán)境下進(jìn)行語義分割的ICL,在這種情況下,為舊班級提供la-bels,同時(shí)學(xué)習(xí)新班級。而且,他們假設(shè)新穎的類永遠(yuǎn)不會(huì)在以前的學(xué)習(xí)步驟的像素中作為背景出現(xiàn)。這些假設(shè)極大地限制了其方法的適用性。
在這里,我們提出了語義分割中ICL問題的更原則性的表述。與以前的工作相比,我們不將分析局限于醫(yī)學(xué)[26]或遙感數(shù)據(jù)[33],也沒有對標(biāo)簽空間在不同學(xué)習(xí)步驟之間的變化方式施加任何限制[24]。此外,我們是第一個(gè)在常用語義分類基準(zhǔn)上提供對最新ICL方法的綜合實(shí)驗(yàn)評估,并明確引入和解決背景類的語義轉(zhuǎn)換的方法,該問題已被認(rèn)可,但很大程度上受到監(jiān)督以前的作品[24]。
增量學(xué)習(xí)。災(zāi)難性的遺忘問題[23]已被廣泛研究用于圖像分類任務(wù)[9]。以前的作品可以分為三類[9]:基于重播的[28、3、31、15、34、25],基于正則化的[17、4、36、18、10]和基于參數(shù)隔離的[ 22、21、30]。在基于重放的方法中,先前任務(wù)的示例被存儲[28、3、15、35]或生成[31、34、25],然后在學(xué)習(xí)新任務(wù)的同時(shí)進(jìn)行重放。基于參數(shù)隔離的方法[22、21、30]為每個(gè)任務(wù)分配參數(shù)的子集,以防止遺忘?;谡齽t化的方法可以分為優(yōu)先關(guān)注和數(shù)據(jù)關(guān)注。前者[36,4,17,1]將知識定義為參數(shù)值,通過懲罰舊參數(shù)的重要參數(shù)的變化來限制新任務(wù)的學(xué)習(xí)。后者[18,10]利用分散[14]并將舊網(wǎng)絡(luò)和新網(wǎng)絡(luò)產(chǎn)生的激活之間的距離用作正則化術(shù)語,以防止災(zāi)難性遺忘。
盡管取得了這些進(jìn)展,但除圖像級分類外,幾乎沒有其他作品。這個(gè)方向的第一項(xiàng)工作是[32],它考慮了對象檢測中的ICL,提出了一種基于蒸餾的方法,該方法從[18]改編而來,用于解決新穎的類識別和邊界框建議的生成。在這項(xiàng)工作中,我們也采用與[32]類似的方法,并且我們采用蒸餾法。但是,在此我們提議解決建模背景分割的問題,這是語義分割設(shè)置所特有的。
模型部分:
圖2:我們的方法概述。 在學(xué)習(xí)步驟t,舊(頂部)模型和當(dāng)前(底部)模型處理圖像,將圖像映射到它們各自的輸出空間。 與標(biāo)準(zhǔn)ICL方法一樣,我們應(yīng)用交叉熵?fù)p失來學(xué)習(xí)新的類(藍(lán)色塊),并使用蒸餾損失來保留舊知識(黃色塊)。 在此框架中,我們通過(i)使用舊背景的權(quán)重(左)初始化新分類器來建模跨不同學(xué)習(xí)步驟的背景的語義變化,(ii)比較十字架中像素級背景的地面真相 -熵,具有背景(黑色)或舊類(粉紅色和灰色條)的概率,并且(iii)將蒸餾損失中舊模型給出的背景概率與具有背景或背景的概率相關(guān)新類(綠色欄)。
代碼:https://github.com/gzb126/MiB
from paper:Modeling the Background for Incremental Learning in Semantic Segmentation
總結(jié)
以上是生活随笔為你收集整理的语义分割中的增量学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 塞尔之光创建公会介绍
- 下一篇: Linux网卡bounding详解