Online Adaptation of Convolutional Neural Networks for Video Object Segmentation论文阅读
摘要
我們處理半監(jiān)督視頻對(duì)象分割的任務(wù),即使用第一幀的地面真實(shí)像素掩模來分割屬于視頻中的對(duì)象的像素。我們建立在最近引入的一次性視頻對(duì)象分割(OSVOS)方法上,該方法使用預(yù)訓(xùn)練網(wǎng)絡(luò)并在第一幀對(duì)其進(jìn)行微調(diào)。 雖然在測(cè)試時(shí)間內(nèi)實(shí)現(xiàn)了令人印象深刻的性能,但OSVOS以未改變的形式使用微調(diào)網(wǎng)絡(luò),無法適應(yīng)物體外觀的巨大變化。 為了克服這個(gè)限制,我們提出了在線自適應(yīng)視頻對(duì)象分割(OnAVOS),其使用基于網(wǎng)絡(luò)的可信度和空間配置而選擇的訓(xùn)練示例在線更新網(wǎng)絡(luò)。 另外,我們?cè)赑ASCAL上學(xué)習(xí)基于對(duì)象的預(yù)訓(xùn)練步驟。 我們的實(shí)驗(yàn)表明,兩種擴(kuò)展都非常有效,并將DAVIS的最新技術(shù)狀態(tài)改進(jìn)為85.7%的交叉點(diǎn)合并分?jǐn)?shù)。
引言
視覺對(duì)象跟蹤是計(jì)算機(jī)視覺中的一個(gè)基本問題,許多應(yīng)用程序包括視頻編輯,自動(dòng)駕駛汽車和機(jī)器人。最近,有一種趨勢(shì)是從邊界框級(jí)別轉(zhuǎn)換到像素級(jí)別跟蹤,主要由新數(shù)據(jù)集的可用性驅(qū)動(dòng),特別是DAVIS [34]。在我們的工作中,我們關(guān)注于半監(jiān)督視頻對(duì)象分割(VOS),即使用第一幀的地面真實(shí)像素遮罩來分割屬于視頻中的通用對(duì)象的像素的任務(wù)。
最近,基于深度學(xué)習(xí)的方法通常利用大分類數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,對(duì)于VOS [7,20,24,35]和單目標(biāo)跟蹤[5,18,31]和背景的相關(guān)任務(wù)建模[2,6,44]。特別是Caelles等人提出的一次性視頻對(duì)象分割(OSVOS)方法。 [7]對(duì)VOS顯示出非常有希望的結(jié)果。該方法在目標(biāo)視頻的第一幀上微調(diào)預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)。然而,由于在測(cè)試時(shí)OSVOS僅從序列的第一幀開始學(xué)習(xí),所以它不能適應(yīng)外觀上的大的變化,這可能例如由視點(diǎn)的劇烈變化引起。
雖然在線自適應(yīng)已成功用于邊界框級(jí)別的跟蹤(例如[14,23,27,31,43]),但其對(duì)VOS的使用[3,4,10,32]受到的關(guān)注較少,特別是在上下文中深度學(xué)習(xí)。因此,我們提出了在線自適應(yīng)視頻對(duì)象分割(OnAVOS),其基于所選擇的訓(xùn)練實(shí)例來更新卷積神經(jīng)網(wǎng)絡(luò)。為了避免漂移,我們通過選擇像素來仔細(xì)選擇訓(xùn)練樣例,網(wǎng)絡(luò)非常確定它們屬于感興趣的對(duì)象作為正例,遠(yuǎn)離最后假定的像素掩模的像素作為反例(請(qǐng)參閱圖1,第二行)。我們進(jìn)一步表明,天真地執(zhí)行在每一幀的在線更新很快就會(huì)導(dǎo)致漂移,這表現(xiàn)在性能強(qiáng)烈退化。作為一種對(duì)策,我們建議在第一幀(已知地面像素掩模)作為在線更新期間的附加訓(xùn)練示例進(jìn)行混合。
我們的貢獻(xiàn)如下:我們介紹OnAVOS,它使用在線更新來適應(yīng)外觀變化。此外,我們采用更新的網(wǎng)絡(luò)架構(gòu)和額外的目標(biāo)性預(yù)訓(xùn)練步驟[20,21],并展示它們對(duì)半監(jiān)督設(shè)置的有效性。我們進(jìn)一步表明,OnAVOS顯著改善了兩個(gè)數(shù)據(jù)集的藝術(shù)狀態(tài)。
圖1:DAVIS驗(yàn)證集的兩個(gè)序列的定性結(jié)果。 第二行顯示選擇為正(紅色)和負(fù)(藍(lán)色)訓(xùn)練示例的像素。可以看出,在線上適應(yīng)后,網(wǎng)絡(luò)可以更好地處理視點(diǎn)(左側(cè))和場(chǎng)景中出現(xiàn)的新對(duì)象(車輛以正確順序)中的變化。
2 Related Work
視頻對(duì)象分割。許多經(jīng)典的視頻對(duì)象分割(VOS)方法的常用方法是減小輸入空間的粒度,例如,通過使用超像素[8,15],補(bǔ)丁[12,38]或?qū)ο筇嶙h[33]。雖然這些方法顯著降低了后續(xù)優(yōu)化步驟的復(fù)雜性,但它們可能會(huì)在流水線早期引入不可恢復(fù)的錯(cuò)誤。然后將獲得的中間表示(或直接使用像素[30])用于整個(gè)視頻的全局優(yōu)化[30,33],其中部分[15],或僅使用當(dāng)前幀和前一幀[8 ,12,38]。
最近,包括OSVOS [7]在內(nèi)的基于神經(jīng)網(wǎng)絡(luò)的方法[7,20,24,35]已經(jīng)成為VOS的最新技術(shù)。由于OnAVOS是建立在OSVOS之上的,因此我們?cè)诘?節(jié)中包含詳細(xì)描述。盡管OSVOS獨(dú)立處理每個(gè)視頻幀,但我們期望合并時(shí)間上下文應(yīng)該會(huì)有所幫助。作為這個(gè)方向的一步,Perazzi等人[35]提出了MaskTrack方法,其中將來自最后一幀的估計(jì)分割掩模用作神經(jīng)網(wǎng)絡(luò)的附加輸入通道,使其能夠使用時(shí)間上下文。 Jampani等人[22]提出了一個(gè)視頻傳播網(wǎng)絡(luò)(VPN),該網(wǎng)絡(luò)應(yīng)用了學(xué)習(xí)的雙邊過濾操作來跨視頻幀傳播信息。此外,在半監(jiān)督[24,35]和無監(jiān)督設(shè)置[40]中,光流被用作附加時(shí)間提示,其中第一幀的基本事實(shí)不可用。在我們的工作中,我們專注于通過在線修改網(wǎng)絡(luò)來隱式地包含上下文信息,即我們將時(shí)間上下文信息存儲(chǔ)在網(wǎng)絡(luò)的適應(yīng)權(quán)值中。
最近,Jain等人[21]提出訓(xùn)練像素對(duì)象的卷積神經(jīng)網(wǎng)絡(luò),即為每個(gè)像素決定它是否屬于類似物體的區(qū)域。在另一篇論文中,Jain等人[20]表明,使用像素對(duì)象在無監(jiān)督的VOS設(shè)置中很有幫助。我們采用像素對(duì)象作為基于一次性方法的半監(jiān)督設(shè)置的預(yù)訓(xùn)練步驟。
來自Khoreva等人的LucidTracker獲得了DAVIS當(dāng)前的最佳結(jié)果。 [24],它通過一種精心設(shè)計(jì)的數(shù)據(jù)增強(qiáng)方法擴(kuò)展了MaskTrack,該方法從第一批注釋的幀中創(chuàng)建了大量訓(xùn)練樣例,并減少了大規(guī)模數(shù)據(jù)集對(duì)預(yù)訓(xùn)練的依賴。我們的實(shí)驗(yàn)表明,我們的方法使用傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法實(shí)現(xiàn)了更好的性能。
在線適應(yīng)。對(duì)于邊界框水平跟蹤,Kalal等人[23]引入了跟蹤 - 學(xué)習(xí) - 檢測(cè)(TLD)框架,該框架試圖檢測(cè)使用的目標(biāo)檢測(cè)器的錯(cuò)誤并在線更新檢測(cè)器以避免將來出現(xiàn)這些錯(cuò)誤。 Grabner和Bischof [14]使用AdaBoost的在線版本[13]進(jìn)行包括跟蹤在內(nèi)的多種計(jì)算機(jī)視覺任務(wù)。 Nam和Han [31]提出了一種用于邊界框級(jí)別跟蹤的多域網(wǎng)絡(luò)(MDNet)。 MDNet為每個(gè)訓(xùn)練序列訓(xùn)練一個(gè)單獨(dú)的域特定輸出層,并在測(cè)試時(shí)初始化一個(gè)新的輸出層,該層與兩個(gè)完全連接的層一起在線更新。為此,訓(xùn)練樣本在當(dāng)前假定的物體位置附近隨機(jī)抽樣,根據(jù)其分類得分用作正面或負(fù)面的目標(biāo)。這種在線培訓(xùn)實(shí)例的方案與我們的方法有一些相似之處。然而,我們的方法在像素級(jí)而不是邊界框級(jí)別上工作,為了避免漂移,我們特別注意只選擇在線的訓(xùn)練樣例,我們非常肯定他們是正面或負(fù)面的例子。對(duì)于VOS,在線適應(yīng)方面的研究較少;主要提出了經(jīng)典的方法,如在線更新的顏色和/或形狀模型[3,4,32]和在線隨機(jī)森林[10]。
完全卷積網(wǎng)絡(luò)的語義分割。 Long等人已經(jīng)引入了用于語義分割的全卷積網(wǎng)絡(luò)(FCN)。 [29]。主要思想是通過用1x1卷積替換完全連接的層并引入跳過連接來幫助捕獲更高分辨率的細(xì)節(jié),重新設(shè)計(jì)最初設(shè)計(jì)用于語義分割分類的網(wǎng)絡(luò)。這種方法的變種已被廣泛應(yīng)用于語義分割,并取得了巨大的成功(例如He等人的ResNets [17])。
最近,吳等人。 [45]引入了ResNet變體,其具有比原始ResNet架構(gòu)更少但更寬的層[17]和簡(jiǎn)單的分割方法,其通過用擴(kuò)張卷積[47]替代它們并避免了一些子采樣步驟,并且不使用任何跳過連接。盡管分割架構(gòu)簡(jiǎn)單,但他們?cè)诙鄠€(gè)分類和語義分割數(shù)據(jù)集中獲得了出色的結(jié)果,這促使我們采用他們的架構(gòu)。
圖2:OnAVOS的管道。 從預(yù)訓(xùn)練的權(quán)重開始,網(wǎng)絡(luò)首先在PASCAL(a)上進(jìn)行對(duì)象預(yù)訓(xùn)練。 之后,我們?cè)贒AVIS上預(yù)先介紹了具體的信息(b)。 在測(cè)試期間,我們對(duì)第一幀進(jìn)行微調(diào),以獲得測(cè)試網(wǎng)絡(luò)(c)。 在以下幀中,網(wǎng)絡(luò)隨后在線調(diào)整以適應(yīng)外觀變化(d)。
3 One-Shot Video Object Segmentation
OnAVOS(參見圖2的概述)基于最近推出的一次性視頻對(duì)象分割(OSVOS)方法[7],但將像素對(duì)象的預(yù)訓(xùn)練[21]作為新組件引入,采用更新的網(wǎng)絡(luò)架構(gòu),并結(jié)合了一種新穎的在線適應(yīng)方案,詳見第4節(jié)。
基地網(wǎng)絡(luò)。 OnAVOS的第一步是在大型數(shù)據(jù)集(例如用于圖像分類的ImageNet [9])上預(yù)先訓(xùn)練一個(gè)基礎(chǔ)網(wǎng)絡(luò),以便學(xué)習(xí)對(duì)象的強(qiáng)大表示,以后可以將其用作視頻對(duì)象分割的起點(diǎn)(VOS )任務(wù)。
物體網(wǎng)絡(luò)。在第二步中,使用二元交叉熵?fù)p失對(duì)網(wǎng)絡(luò)進(jìn)行像素對(duì)象進(jìn)一步預(yù)訓(xùn)練[21]。為了獲得前景和背景的目標(biāo),我們使用PASCAL [11]數(shù)據(jù)集并將所有20個(gè)帶注釋的類映射到前景,并將所有其他圖像區(qū)域視為背景。正如Jain等人所證明的那樣。 [20],僅由此產(chǎn)生的對(duì)象網(wǎng)絡(luò)已經(jīng)在DAVIS上表現(xiàn)良好,但在這里我們只將對(duì)象用作預(yù)訓(xùn)練步驟。
域特定對(duì)象網(wǎng)絡(luò)。對(duì)象網(wǎng)絡(luò)在PASCAL數(shù)據(jù)集上進(jìn)行了訓(xùn)練。然而,應(yīng)在其上執(zhí)行VOS的目標(biāo)數(shù)據(jù)集可能表現(xiàn)出不同的特征,例如,在DAVIS的情況下分辨率更高,噪音更小。因此,我們使用DAVIS訓(xùn)練數(shù)據(jù)對(duì)對(duì)象網(wǎng)絡(luò)進(jìn)行微調(diào),并獲得領(lǐng)域特定的對(duì)象網(wǎng)絡(luò)。DAVIS注釋不直接對(duì)應(yīng)于對(duì)象,因?yàn)橥ǔV挥幸粋€(gè)對(duì)象可能是多個(gè)注釋。然而,我們認(rèn)為這里學(xué)到的任務(wù)仍然類似于一般的對(duì)象,因?yàn)樵贒AVIS的大多數(shù)序列中,可見對(duì)象的數(shù)量相對(duì)較少,并且感興趣的對(duì)象通常相對(duì)較大且顯著。請(qǐng)注意,OSVOS直接在DAVIS上訓(xùn)練基礎(chǔ)網(wǎng)絡(luò),無需在PASCAL上進(jìn)行對(duì)象預(yù)訓(xùn)練。我們的實(shí)驗(yàn)表明這兩個(gè)步驟都是互補(bǔ)的。
測(cè)試網(wǎng)絡(luò)。在上述預(yù)訓(xùn)練步驟之后,網(wǎng)絡(luò)已經(jīng)學(xué)習(xí)了領(lǐng)域特定的對(duì)象概念,但是在測(cè)試時(shí)間內(nèi),它還不知道它應(yīng)該分割的目標(biāo)序列的可能多個(gè)對(duì)象中的哪一個(gè)。因此,我們?cè)诘谝粠牡孛鎸?shí)況蒙版上微調(diào)預(yù)訓(xùn)練網(wǎng)絡(luò),為它提供感興趣對(duì)象的身份和特定外觀,并允許它學(xué)習(xí)忽略背景。這一步驟已被證明對(duì)VOS非常有效[7],我們?cè)趯?shí)驗(yàn)中也證實(shí)了這一點(diǎn)。但是,第一幀并不能為網(wǎng)絡(luò)提供足夠的信息來適應(yīng)外觀或視點(diǎn)的劇烈變化。在這些情況下,我們需要在線適應(yīng)方法(見第4節(jié))。
網(wǎng)絡(luò)架構(gòu)。盡管OSVOS使用了眾所周知的VGG網(wǎng)絡(luò)[39],但我們選擇采用更新的網(wǎng)絡(luò)架構(gòu),其中包含殘留連接。特別是,我們采用吳等人的模型A. [45],這是一個(gè)非常廣泛的ResNet[17]變體,有38個(gè)隱藏層和大約1.24億個(gè)參數(shù)。分割的方法非常簡(jiǎn)單,因?yàn)椴皇褂蒙喜蓸訖C(jī)制或跳過連接。取而代之的是,使用步進(jìn)卷積的向下取樣僅執(zhí)行三次。這會(huì)導(dǎo)致每個(gè)維度的分辨率損失八倍,之后使用擴(kuò)張卷積[47]增加感受野,而不會(huì)額外損失分辨率。盡管簡(jiǎn)單,但這種架構(gòu)在分類(ImageNet)和分割(PASCAL)任務(wù)方面都表現(xiàn)出了優(yōu)異的結(jié)果[45]。當(dāng)將其應(yīng)用于分割時(shí),我們?cè)谝?.5進(jìn)行閾值化之前將像素后驗(yàn)概率雙線性上采樣到初始分辨率。
我們使用Wu等人提供的權(quán)重。 [45],這是通過在ImageNet [9],Microsoft COCO [28]和PASCAL [11]上進(jìn)行預(yù)訓(xùn)練獲得的,作為基礎(chǔ)網(wǎng)絡(luò)的強(qiáng)大初始化。然后,我們用兩級(jí)softmax替換輸出層。作為損失函數(shù),我們使用自助交叉熵?fù)p失函數(shù)[46],該函數(shù)將交叉熵?fù)p失值的平均值僅作為最困難像素的一部分,即網(wǎng)絡(luò)預(yù)測(cè)最差的像素,而不是全部像素。這種損失函數(shù)已被證明對(duì)于不平衡的類分布很有效,這對(duì)于VOS來說也是常見的,這是由于背景類的主導(dǎo)。在我們所有的實(shí)驗(yàn)中,我們使用25%最硬像素的一部分,并使用Adam優(yōu)化器[25]優(yōu)化這種損失。在我們的評(píng)估中,我們將網(wǎng)絡(luò)架構(gòu)的效果與算法改進(jìn)的效果分開。
4 Online Adaptation
由于感興趣對(duì)象的出現(xiàn)隨著時(shí)間的推移而變化并且可能出現(xiàn)新的背景對(duì)象,因此我們引入在線適應(yīng)方案以適應(yīng)這些變化(參見算法1)。進(jìn)入場(chǎng)景的新物體在進(jìn)行物體預(yù)訓(xùn)練時(shí)特別成問題,因?yàn)樗鼈儚膩頉]有用作負(fù)面訓(xùn)練的例子,因此被分配的概率很高(例如參見圖1(右))。
我們的在線自適應(yīng)方案的基本思想是將非常可靠的預(yù)測(cè)像素作為訓(xùn)練示例。我們選擇預(yù)測(cè)的前景概率超過特定閾值α的像素作為正例。有人可能會(huì)爭(zhēng)辯說,使用這些像素作為正面的例子是無用的,因?yàn)榫W(wǎng)絡(luò)已經(jīng)對(duì)它們給出了非常有把握的預(yù)測(cè)。然而,重要的是適應(yīng)能夠保留積極類別的記憶,以便為增加的許多負(fù)面例子創(chuàng)造平衡。在我們的實(shí)驗(yàn)中,忽略這一步驟會(huì)在前景蒙板上產(chǎn)生空洞。
我們最初以相同的方式選擇負(fù)面訓(xùn)練樣例,即使用前景概率非常低的像素。然而,這可能會(huì)導(dǎo)致性能下降,因?yàn)樵诖蟮耐庥^變化過程中,假陰性像素將被選為負(fù)面訓(xùn)練示例,從而有效地摧毀了適應(yīng)這些變化的所有機(jī)會(huì)。因此,我們基于兩幀之間的移動(dòng)很小的假設(shè),以不同的方式選擇負(fù)面訓(xùn)練示例。這個(gè)想法是選擇離最后預(yù)測(cè)的對(duì)象掩碼很遠(yuǎn)的所有像素。為了處理噪音,最后的面具可以首先被侵蝕操作收縮。對(duì)于我們的實(shí)驗(yàn),我們使用大小為15的方形結(jié)構(gòu)元素,但我們發(fā)現(xiàn)此參數(shù)的確切值并不重要。之后,我們計(jì)算一個(gè)距離變換,該變換為每個(gè)像素提供距離掩模最近的前景像素的歐幾里得距離。最后,我們應(yīng)用閾值d并將距離大于d的所有像素視為負(fù)面示例。
既未標(biāo)記為正面也未標(biāo)為負(fù)面例子的像素被分配了“不關(guān)心”標(biāo)簽,并且在線更新期間被忽略。我們現(xiàn)在可以在當(dāng)前幀上微調(diào)網(wǎng)絡(luò),因?yàn)槊總€(gè)像素都有一個(gè)用于訓(xùn)練的標(biāo)簽。然而,在實(shí)踐中,我們發(fā)現(xiàn)使用獲得的訓(xùn)練樣例進(jìn)行天真的微調(diào)很快就會(huì)導(dǎo)致漂移。為了避免這個(gè)問題,我們建議在第一幀中作為在線更新期間的附加訓(xùn)練樣例,因?yàn)閷?duì)于第一幀,地面實(shí)況是可用的。我們發(fā)現(xiàn)為了獲得好的結(jié)果,第一幀應(yīng)該比當(dāng)前幀更頻繁地采樣,即在在線適應(yīng)期間,我們每幀執(zhí)行總共非線性更新步驟,其中在當(dāng)前幀上僅執(zhí)行n行,并且其余的是在第一幀上執(zhí)行的。此外,我們將當(dāng)前幀的損失權(quán)重降低β因子(例如β≈0.05)。值為0.05可能看起來小得驚人,但必須記住第一幀經(jīng)常用于更新,快速導(dǎo)致更小的梯度,而當(dāng)前幀僅被選擇幾次。
在線自適應(yīng)期間,根據(jù)前一幀的掩碼選擇否定訓(xùn)練示例。因此,可能發(fā)生像素被選作負(fù)面的例子,并且它被同時(shí)預(yù)測(cè)為前景。我們稱這些像素為不利底片。發(fā)生硬陰性的常見情況是當(dāng)先前看不見的物體遠(yuǎn)離感興趣的物體進(jìn)入場(chǎng)景時(shí)(見圖1(右)),這通常會(huì)被網(wǎng)絡(luò)檢測(cè)為前景。我們發(fā)現(xiàn)從下一幀中使用的前景蒙版中移除難以確定否定訓(xùn)練示例的難題很有幫助。此步驟允許再次選擇下一幀中的負(fù)片作為反面示例。此外,我們?cè)噲D通過增加更新步驟的數(shù)量和/或在存在嚴(yán)重負(fù)面情況下當(dāng)前幀的損失范圍來更強(qiáng)調(diào)網(wǎng)絡(luò)以適應(yīng)硬性負(fù)面情況。但是,這并沒有進(jìn)一步改善結(jié)果。
除了前面描述的步驟之外,我們還提出了一個(gè)簡(jiǎn)單的啟發(fā)式方法,它可以使我們的方法更好地抵抗像遮擋這樣的困難:如果(在可選侵蝕之后)最后假定的前景蒙版上沒有任何東西,我們假設(shè)感興趣的對(duì)象丟失并且不要應(yīng)用任何在線更新,直到網(wǎng)絡(luò)再次找到非空的前景蒙板。
5 Experiments
數(shù)據(jù)集。對(duì)于物體預(yù)訓(xùn)練(參見第3節(jié)),我們使用了PASCAL VOC 2012數(shù)據(jù)集[14]的1,464個(gè)訓(xùn)練圖像以及Hariharan等人提供的附加注釋。 [16],總共有10 582個(gè)訓(xùn)練圖像,包含20個(gè)類別,我們都將其映射到單個(gè)前景類別。對(duì)于視頻對(duì)象分割(VOS),我們對(duì)最近推出的DAVIS數(shù)據(jù)集[34]進(jìn)行了大部分實(shí)驗(yàn),該數(shù)據(jù)集由50個(gè)短全高清視頻序列組成,其中30個(gè)用于訓(xùn)練,另外20個(gè)用于驗(yàn)證。與大多數(shù)先前的工作一致,我們對(duì)分采樣版本進(jìn)行了所有實(shí)驗(yàn),分辨率為854×480像素。為了說明我們的方法的概括性,我們還對(duì)VOS的YouTube-Objects [19,37]數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),該數(shù)據(jù)集由126個(gè)序列組成。
實(shí)驗(yàn)裝置。我們?cè)赑ASCAL和DAVIS上預(yù)訓(xùn),每個(gè)10個(gè)時(shí)代。對(duì)于基線一次性方法,我們?cè)诘谝粠习l(fā)現(xiàn)了50個(gè)更新步驟,學(xué)習(xí)率為3·10-6,效果很好。為了簡(jiǎn)單起見,我們只使用了一個(gè)圖像的小批量。由于DAVIS僅具有訓(xùn)練和驗(yàn)證集,因此我們使用三重交叉驗(yàn)證調(diào)整了30個(gè)序列的訓(xùn)練集上的所有超參數(shù),即20個(gè)訓(xùn)練序列用于訓(xùn)練,并且10個(gè)用于每個(gè)折疊的驗(yàn)證。按照慣例,我們通過隨機(jī)翻轉(zhuǎn)來增加訓(xùn)練數(shù)據(jù),使用從[0.7,1.3]和伽瑪增強(qiáng)[36]均勻采樣的因子進(jìn)行縮放。
為了評(píng)估,我們使用了Jaccard指數(shù),即預(yù)測(cè)的前景蒙板和地面實(shí)況蒙板之間的平均交匯點(diǎn)(mIoU)。 Perazzi等人提出的額外評(píng)估措施的結(jié)果[34]顯示在補(bǔ)充材料中。我們注意到,特別是對(duì)第一幀進(jìn)行微調(diào)時(shí),隨機(jī)增強(qiáng)會(huì)在結(jié)果中引入不可忽略的變化。因此,對(duì)于這些實(shí)驗(yàn),我們進(jìn)行了三次運(yùn)行并報(bào)告了平均值和標(biāo)準(zhǔn)偏差值。所有的實(shí)驗(yàn)都是在我們基于TensorFlow [1]的實(shí)現(xiàn)中完成的,我們將在https://www.vision.rwth-aachen.de/software / OnAVOS上提供預(yù)訓(xùn)練模型。
5.1?? BaselineSystems
預(yù)訓(xùn)練步驟的效果。從基礎(chǔ)網(wǎng)絡(luò)開始(參見第3節(jié)),我們的完整基線系統(tǒng)(即無適應(yīng)性)包括在PASCAL上進(jìn)行物體第一預(yù)訓(xùn)練步驟,然后是DAVIS訓(xùn)練序列,最后在第一步進(jìn)行微調(diào)幀。這三個(gè)步驟中的每一個(gè)都可以單獨(dú)啟用或禁用。表1顯示了DAVIS對(duì)所有結(jié)果組合的結(jié)果。可以看出,這些步驟中的每一步都很有用,因?yàn)閯h除任何步驟總會(huì)使結(jié)果惡化。
基礎(chǔ)網(wǎng)絡(luò)被訓(xùn)練用于與二元分割不同的任務(wù),因此需要在微調(diào)網(wǎng)絡(luò)的其余部分的同時(shí)學(xué)習(xí)新的輸出層。沒有PASCAL或DAVIS預(yù)訓(xùn)練,隨機(jī)初始化的輸出層僅從目標(biāo)序列的第一幀中學(xué)習(xí),這導(dǎo)致??僅僅65.2%mIoU的性能大幅降低。然而,當(dāng)使用PASCAL或DAVIS進(jìn)行預(yù)訓(xùn)練時(shí),結(jié)果分別顯著提高至77.6%mIoU和78.0%mIoU。雖然兩種結(jié)果非常相似,但可以看出PASCAL和DAVIS確實(shí)提供了補(bǔ)充信息,因?yàn)槭褂脙蓚€(gè)數(shù)據(jù)集一起進(jìn)一步將結(jié)果提高到80.3%。我們認(rèn)為相對(duì)較大的PASCAL數(shù)據(jù)集對(duì)于學(xué)習(xí)一般對(duì)象是有用的,而有限的DAVIS數(shù)據(jù)對(duì)于適應(yīng)DAVIS數(shù)據(jù)的特征(例如相對(duì)高的圖像質(zhì)量)是有用的,這為DAVIS的評(píng)估提供了優(yōu)勢(shì)序列。
有趣的是,即使沒有看第一幀的分段掩模,即在無監(jiān)督的設(shè)置中,我們已經(jīng)獲得72.7%mIoU的結(jié)果;稍好于當(dāng)前最好的無監(jiān)督方法FusionSeg [20],它在DAVIS驗(yàn)證集上獲得70.7%的mIoU,使用目標(biāo)性和光流作為附加提示。
與OSVOS比較。如果不包括邊界捕捉后處理步驟,OSVOS在DAVIS上達(dá)到77.4%的mIoU。我們的系統(tǒng)在PASCAL上沒有對(duì)象進(jìn)行預(yù)訓(xùn)練,與此結(jié)果直接相當(dāng),達(dá)到78.0%mIoU。我們將這種適度的改進(jìn)歸因于我們采用的更新的網(wǎng)絡(luò)架構(gòu)。包括PASCAL在對(duì)象預(yù)訓(xùn)練中將這一結(jié)果進(jìn)一步提高了2.3%至80.3%。
表1:(預(yù))訓(xùn)練步驟對(duì)DAVIS驗(yàn)證集的影響。 可以看出,三個(gè)訓(xùn)練步驟都是有用的。 PASCAL上的對(duì)象預(yù)訓(xùn)練步驟顯著改善了結(jié)果。
5.2 OnlineAdaptation
超參數(shù)研究。如第4節(jié)所述,OnAVOS涉及相對(duì)較多的超參數(shù)。在DAVIS訓(xùn)練集上進(jìn)行粗略的手動(dòng)調(diào)整后,我們發(fā)現(xiàn)α= 0.97,β= 0.05,d =220,非線性= 15,ncurr = 3可以很好地工作。雖然第一幀的最初50個(gè)更新步驟以3·10-6的學(xué)習(xí)率進(jìn)行,但對(duì)于當(dāng)前幀和第一幀的在線更新,使用不同的學(xué)習(xí)率λ= 10-5是有用的。從這些值作為操作點(diǎn)開始,我們通過一次更改一個(gè)超參數(shù)進(jìn)行更詳細(xì)的研究,同時(shí)保持其他參數(shù)不變。我們發(fā)現(xiàn)OnAVOS對(duì)于大多數(shù)超參數(shù)的選擇并不是非常敏感,我們嘗試的每種配置都比非適配的基線表現(xiàn)得更好,與操作點(diǎn)相比,我們只取得了小的改進(jìn)(詳細(xì)的圖表在補(bǔ)充材料中顯示)。為了避免過度擬合小DAVIS訓(xùn)練集,我們保留了所有進(jìn)一步實(shí)驗(yàn)的操作點(diǎn)的值。
消融研究。表2顯示了在DAVIS驗(yàn)證集上提出的在線自適應(yīng)方案和多個(gè)變體的結(jié)果,其中部分算法被禁用。使用完整的方法,我們獲得了82.8%的mIoU分?jǐn)?shù)。當(dāng)禁用所有適應(yīng)步驟時(shí),性能顯著下降至80.3%,這證明了在線適應(yīng)方法的有效性。該表進(jìn)一步顯示負(fù)面的訓(xùn)練例子比正面的例子更重要。如果我們?cè)谠诰€更新期間不混合第一幀,由于漂移,結(jié)果顯著降低到69.1%。
時(shí)序信息。對(duì)于第一幀的初始微調(diào)階段,我們使用了50個(gè)更新步驟。包括所有其他幀的正向傳遞時(shí)間,這導(dǎo)致使用NVIDIA Titan X(Pascal)GPU的DAVIS驗(yàn)證集的每個(gè)序列的總運(yùn)行時(shí)間約為90秒(對(duì)應(yīng)于每幀約1.3秒)。當(dāng)使用非線性= 15的在線適應(yīng)時(shí),運(yùn)行時(shí)間增加到每個(gè)序列大約15分鐘(對(duì)應(yīng)于每幀大約13秒)。然而,我們的超參數(shù)分析顯示,通過減少非線性而不會(huì)損失精度,可顯著降低運(yùn)行時(shí)間。請(qǐng)注意,為了獲得最佳效果,OSVOS在第一幀上使用更多的更新步驟,每個(gè)序列需要大約10分鐘(對(duì)應(yīng)于每幀大約9秒)。
5.3 Comparisonto State of the Art
當(dāng)前最先進(jìn)的方法使用后處理步驟,如邊界捕捉[7]或條件隨機(jī)場(chǎng)(CRF)平滑[24,35]來改善輪廓。為了與它們進(jìn)行比較,我們使用DenseCRF [26]包括了每幀后處理。這可能特別有用,因?yàn)槲覀兊木W(wǎng)絡(luò)只為每個(gè)8×8像素塊提供一個(gè)輸出。另外,我們?cè)跍y(cè)試期間添加了數(shù)據(jù)增強(qiáng)。為此,我們通過隨機(jī)翻轉(zhuǎn),縮放和伽瑪增量創(chuàng)建了每個(gè)測(cè)試圖像的10個(gè)變體,并對(duì)所有10幅圖像的后驗(yàn)概率進(jìn)行平均。
為了演示OnAVOS的泛化能力,并且由于沒有針對(duì)YouTube-Objects的單獨(dú)訓(xùn)練集,我們使用與DAVIS相同的超參數(shù)值(包括CRF參數(shù))對(duì)該數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。此外,我們省略了DAVIS的預(yù)訓(xùn)練步驟。請(qǐng)注意,對(duì)于YouTube-Objects,以前出版物中的評(píng)估協(xié)議有時(shí)會(huì)因不包含感興趣對(duì)象不存在的幀而有所不同[24]。在這里,我們報(bào)告遵循DAVIS評(píng)估協(xié)議的結(jié)果,即包括這些框架,與Khoreva等人一致。 [24]。
表3顯示了我們的后處理步驟的效果,并將我們?cè)贒AVIS和YouTube-Objects上的結(jié)果與其他方法進(jìn)行了比較。請(qǐng)注意,與在線適應(yīng)相結(jié)合時(shí),測(cè)試時(shí)間增加的效果更強(qiáng)。我們認(rèn)為這是因?yàn)樵谶@種情況下,增強(qiáng)不僅直接提高了最終結(jié)果作為后處理步驟,而且它們還提供了更好的適應(yīng)目標(biāo)。在DAVIS上,我們達(dá)到了85.7%的mIoU,據(jù)我們所知,這個(gè)數(shù)字遠(yuǎn)遠(yuǎn)高于以前發(fā)布的任何結(jié)果。與OSVOS相比,這個(gè)數(shù)字提高了近6%。在YouTube-Objects上,我們獲得了77.4%的mIoU,與LucidTracker獲得的第二最佳結(jié)果(76.2%)相比,這也是一個(gè)重大改進(jìn)。
6 Conclusion
在這項(xiàng)工作中,我們提出了基于OSVOS方法的OnAVOS。 我們已經(jīng)證明,包含一個(gè)對(duì)象預(yù)訓(xùn)練步驟和我們的半監(jiān)督視頻對(duì)象分割的在線自適應(yīng)方案是非常有效的。 我們進(jìn)一步表明,我們的在線自適應(yīng)方案對(duì)超參數(shù)的選擇是強(qiáng)健的,并且推廣到另一個(gè)數(shù)據(jù)集。我們預(yù)計(jì)在未來,更多的方法將采用適應(yīng)方案,使它們?cè)谕庥^上發(fā)生較大變化時(shí)更加穩(wěn)健。 對(duì)于未來的工作,我們計(jì)劃明確地將時(shí)間背景信息納入我們的方法。
總結(jié)
以上是生活随笔為你收集整理的Online Adaptation of Convolutional Neural Networks for Video Object Segmentation论文阅读的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: android wifi连接优先级,go
- 下一篇: 无线串口模块SX1278的使用后记