目标跟踪与分割
目標(biāo)跟蹤與分割
Fast Online Object Tracking and
Segmentation: A Unifying Approach
論文鏈接:
http://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_Fast_Online_Object_Tracking_and_Segmentation_A_Unifying_Approach_CVPR_2019_paper.pdf
摘要
本文介紹了如何用一種簡(jiǎn)單的方法實(shí)現(xiàn)視頻目標(biāo)的實(shí)時(shí)跟蹤和半監(jiān)督視頻目標(biāo)分割。本文的方法被稱為SiamMask,通過(guò)增加二元分割任務(wù)的損失,改進(jìn)了目前流行的全卷積siames目標(biāo)跟蹤方法的模糊訓(xùn)練過(guò)程。經(jīng)過(guò)訓(xùn)練后,SiamMask僅依賴于一個(gè)邊界框初始化并在線操作,以每秒55幀的速度生成與類無(wú)關(guān)的對(duì)象分割遮罩和旋轉(zhuǎn)邊界框。盡管其簡(jiǎn)單、多功能和快速,本文的策略使本文能夠在VOT-2018上的實(shí)時(shí)跟蹤器中建立一個(gè)新的最先進(jìn)的狀態(tài),同時(shí)展示在DAVIS-2016和DAVIS-2017上的半監(jiān)督視頻對(duì)象分割任務(wù)的競(jìng)爭(zhēng)性能和最佳速度。
Introduction
本文提出了一種簡(jiǎn)單的多任務(wù)學(xué)習(xí)方法SiamMask,旨在縮小任意目標(biāo)跟蹤與VOS之間的差距。本文的方法的動(dòng)機(jī)是基于完全卷積SiamMask網(wǎng)絡(luò)的快速跟蹤方法的成功[4]訓(xùn)練了數(shù)百萬(wàn)對(duì)視頻幀(例如[31,71,17,67]),以及最近YouTube VOS的可用性[64],這是一個(gè)帶有像素注釋的大型視頻數(shù)據(jù)集。本文的目標(biāo)是保持這些方法的靈活性和在線速度,同時(shí)顯著地重新定義它們對(duì)目標(biāo)對(duì)象的表示,這僅限于簡(jiǎn)單的軸對(duì)齊邊界框。為了實(shí)現(xiàn)這一目標(biāo),本文同時(shí)在三個(gè)任務(wù)上訓(xùn)練SiamMask網(wǎng)絡(luò),每個(gè)任務(wù)對(duì)應(yīng)不同的策略,以在新的框架中建立目標(biāo)對(duì)象和候選區(qū)域之間的對(duì)應(yīng)關(guān)系。如Bertineto等人[4]的完全卷積方法,一個(gè)任務(wù)是以滑動(dòng)窗口的方式學(xué)習(xí)目標(biāo)對(duì)象和多個(gè)候選對(duì)象之間的相似性度量。
輸出是一個(gè)密集的響應(yīng)映射,它只指示對(duì)象的位置,而不提供有關(guān)其空間范圍的任何信息。為了重新定義這些信息,本文同時(shí)學(xué)習(xí)兩個(gè)進(jìn)一步的任務(wù):使用區(qū)域建議網(wǎng)絡(luò)的邊界盒回歸[53,31]和類無(wú)關(guān)的二進(jìn)制分割[49]。值得注意的是,二進(jìn)制標(biāo)簽只需要在飛行訓(xùn)練期間計(jì)算分割損失,而不是在分割/跟蹤期間在線。在本文提出的架構(gòu)中,每一個(gè)任務(wù)都由一個(gè)不同的分支來(lái)表示,這個(gè)分支從一個(gè)共享的CNN出發(fā),導(dǎo)致最終的損失,這三個(gè)輸出相加。經(jīng)過(guò)訓(xùn)練后,SiamMask僅依賴于一個(gè)邊界框初始化,在線操作而無(wú)需更新,并以每秒55幀的速度生成對(duì)象分割遮罩和旋轉(zhuǎn)邊界框。
盡管簡(jiǎn)單快速,但SiamMask在VOT-2018上為實(shí)時(shí)目標(biāo)跟蹤問(wèn)題建立了一個(gè)新的技術(shù)狀態(tài)。此外,與DAVIS-2016和DAVIS-2017上最近的半監(jiān)督VOS方法相比,同樣的方法也非常有競(jìng)爭(zhēng)力,同時(shí)以很大的優(yōu)勢(shì)成為速度最快的方法。這個(gè)結(jié)果是通過(guò)一個(gè)簡(jiǎn)單的邊界框初始化(與掩模相反)來(lái)實(shí)現(xiàn)的,并且沒(méi)有采用VOS方法通常使用的昂貴技術(shù),例如微調(diào)[39、45、2、60]、數(shù)據(jù)增強(qiáng)[25、33]和光流[57、2、45、33、10]。
- Methodology
為了實(shí)現(xiàn)在線可操作性和快速性,本文采用了Bertineto等人[4]的全卷積Siamese框架。此外,為了說(shuō)明本文的方法與作為起點(diǎn)(例如[4,31,71,67,18])的特定完全卷積方法是不可知的,本文將流行的SiamFC[4]和SiamRPN[31]作為兩個(gè)典型例子。
2.1. Fully-convolutional Siamese networks
SiamFC
Bertineto等人
[4] 提議使用柔性全卷積SiamFC網(wǎng)絡(luò)作為跟蹤系統(tǒng)的基本組成部分,該網(wǎng)絡(luò)將示例圖像z與(較大)搜索圖像x進(jìn)行比較,以獲得密集的響應(yīng)圖。z和x分別是以目標(biāo)對(duì)象為中心的w×h裁剪和以目標(biāo)最后估計(jì)位置為中心的較大裁剪。
2.2. SiamMask
與現(xiàn)有的基于低分辨率目標(biāo)表示的跟蹤方法不同,本文論證了產(chǎn)生逐幀二值分割掩模的重要性。為此,本文證明,除了相似性分?jǐn)?shù)和邊界框坐標(biāo)外,全卷積連體網(wǎng)絡(luò)的行還可以對(duì)生成像素級(jí)二值掩模所需的信息進(jìn)行編碼。這可以通過(guò)擴(kuò)展現(xiàn)有的SiamMask跟蹤與一個(gè)額外的分支和損失。
重要的是,分割任務(wù)的網(wǎng)絡(luò)hφ由兩個(gè)1×1卷積層組成,一個(gè)具有256個(gè)信道,另一個(gè)具有632個(gè)信道(圖2)。這使得每一個(gè)像素分類能夠利用包含在整行中的信息,從而在x中擁有其對(duì)應(yīng)的候選窗口的完整視圖,這對(duì)于消除看起來(lái)像目標(biāo)的實(shí)例(如圖4的最后一行)之間的歧義至關(guān)重要,也稱為干擾器[52,71]。為了產(chǎn)生更精確的目標(biāo)掩模,本文遵循了[50]的策略,該策略使用由上采樣層和跳過(guò)連接組成的多個(gè)增強(qiáng)模塊合并低分辨率和高分辨率特征。
雖然VOS基準(zhǔn)需要二進(jìn)制掩碼,但典型的跟蹤基準(zhǔn)(如VOT[30])需要一個(gè)邊界框作為目標(biāo)對(duì)象的最終表示。本文考慮三種不同的策略從二進(jìn)制掩碼生成一個(gè)邊界框(圖3):
(1)軸對(duì)齊的邊框(最小最大值),
(2)旋轉(zhuǎn)最小邊界矩形(MBR)和
(3) VOT-2016[28]中提出的用于自動(dòng)邊界框生成的優(yōu)化策略。
2.3. Implementation details
網(wǎng)絡(luò)體系結(jié)構(gòu)
對(duì)于本文的兩個(gè)變體,本文使用ResNet-50[20]直到第4階段的最終卷積層作為本文的主干fθ。為了獲得更深層的高空間分辨率,本文使用步長(zhǎng)1的卷積將輸出步長(zhǎng)減少到8。此外,本文通過(guò)擴(kuò)大卷積來(lái)增加感受野[8]。在本文的模型中,本文在共享骨干網(wǎng)fθ上增加了一個(gè)非共享調(diào)整層(1×1 conv,256個(gè)輸出)。為了簡(jiǎn)單起見(jiàn),本文在式1中省略它。本文在附錄中更詳細(xì)地描述了網(wǎng)絡(luò)體系結(jié)構(gòu)。 訓(xùn)練
與SiamFC[4]一樣,本文使用示例和搜索分別為127×127和255×255像素的圖像塊。在訓(xùn)練過(guò)程中,本文隨機(jī)抖動(dòng)樣本并搜索補(bǔ)丁。具體來(lái)說(shuō),本文考慮了隨機(jī)平移(高達(dá)±8像素)和重縮放(分別為2±1/8和2±1/4的示例和搜索)。網(wǎng)絡(luò)骨干網(wǎng)接受了ImageNet-1k分類任務(wù)的預(yù)先培訓(xùn)。本文使用帶第一個(gè)預(yù)熱階段的SGD,在該階段中,前5個(gè)階段的學(xué)習(xí)率從10-3線性增加到5×10-3,然后在另外15個(gè)階段的學(xué)習(xí)率從對(duì)數(shù)下降到5×10-4。本文使用COCO[35]、ImageNet VID[54]和YouTube VOS[64]來(lái)訓(xùn)練所有的模特。
推論
在跟蹤過(guò)程中,SiamMask只對(duì)每幀進(jìn)行一次評(píng)估,沒(méi)有任何自適應(yīng)。在本文的兩個(gè)變體中,本文使用在分類分支中獲得最大分?jǐn)?shù)的位置來(lái)選擇輸出掩碼。然后,在應(yīng)用每像素sigmoid后,本文以0.5的閾值對(duì)掩模分支的輸出進(jìn)行二值化。在兩個(gè)分支變量中,對(duì)于第一個(gè)視頻幀之后的每個(gè)視頻幀,本文使用最小-最大框來(lái)確定輸出掩碼,并將其用作裁剪下一個(gè)幀搜索區(qū)域的參考。相反,在三分支變體中,本文發(fā)現(xiàn)更有效地利用box分支的最高得分輸出作為參考。
- Experiments
在本節(jié)中,本文將評(píng)估本文在兩個(gè)相關(guān)任務(wù)上的方法:視覺(jué)對(duì)象跟蹤(在VOT-2016和VOT-2018上)和半監(jiān)督視頻對(duì)象分割(在DAVIS2016和DAVIS-2017上)。本文分別用SiamMask-2B和SiamMask來(lái)指代本文的兩個(gè)分支和三個(gè)分支變體。
3.1. Evaluation for visual object tracking
在表1中,本文使用Min max、MBR和Opt方法比較了本文的三個(gè)分支變量(在第3.2節(jié)末尾和圖3中描述)。對(duì)于透視圖,本文還報(bào)告了作為固定和可變長(zhǎng)寬比方法代表的SiamFC和SiamRPN的結(jié)果,以及三個(gè)能夠訪問(wèn)每幀背景真實(shí)信息并作為不同表示策略上限的oracle。
(1)固定縱橫比oracle使用每幀地面真實(shí)區(qū)域和中心位置,但將縱橫比設(shè)置為第一幀之一,并生成一個(gè)軸對(duì)齊的邊界框。
(2)Minmax oracle使用旋轉(zhuǎn)的地面真值邊界框的最小包圍矩形來(lái)生成與軸對(duì)齊的邊界框。
(3)最后,MBR oracle使用地面真值的旋轉(zhuǎn)最小邊界矩形。注意,(1),(2)和(3)可以分別考慮SiamFC、SiamRPN和SiamMask的表示策略的性能上界。表1顯示本文的方法實(shí)現(xiàn)了最好的mIOU,不管使用的是框生成策略(圖3)。盡管SiamMask Opt提供了最高的IOU和mAP,但由于優(yōu)化過(guò)程緩慢,它需要大量的計(jì)算資源[28]。SiamMask MBR的mAP@0.5iou為85.4,兩個(gè)完全卷積基線的w.r.t分別提高了+29和+9.2點(diǎn)。有趣的是,在0.7 IOU:+41.6和+18.4的較高精度范圍內(nèi),當(dāng)考慮mAP時(shí),差距顯著擴(kuò)大。值得注意的是,本文的準(zhǔn)確度結(jié)果與固定長(zhǎng)寬比oracle相差不遠(yuǎn)。此外,比較由oracles表示的上限性能,可以注意到,通過(guò)簡(jiǎn)單地更改邊界框表示,有很大的改進(jìn)空間(例如,固定縱橫比和MBR oracles之間+10.6%的mIOU改進(jìn))??偟膩?lái)說(shuō),這項(xiàng)研究表明,MBR策略如何從對(duì)象的二進(jìn)制掩碼中獲取旋轉(zhuǎn)的邊界框,與簡(jiǎn)單地報(bào)告軸對(duì)齊邊界框的流行策略相比,具有顯著的優(yōu)勢(shì)。
VOT-2018和-2016結(jié)果
在表2中,本文將SiamMask的兩個(gè)變體與MBR策略和SiamMask–Opt與最近在VOT-2018基準(zhǔn)上發(fā)布的最新?tīng)顟B(tài)跟蹤程序進(jìn)行了比較。除非另有說(shuō)明,否則SiamMask是指本文采用MBR策略的三分支變體。SiamMask的兩個(gè)變種都實(shí)現(xiàn)了出色的性能和實(shí)時(shí)運(yùn)行。特別是,本文的三個(gè)分支變體的性能明顯優(yōu)于最近表現(xiàn)最好的DaSiamRPN[71],EAO達(dá)到0.380,運(yùn)行速度為55 fps。即使沒(méi)有盒回歸分支,本文簡(jiǎn)單的兩分支變體(SiamMask2B)也能達(dá)到0.334的高EAO,這與SA-Siam R[17]相當(dāng),并且優(yōu)于已發(fā)表文獻(xiàn)中的任何其他實(shí)時(shí)方法。此外,SiamMask–Opt在EAO為0.387的情況下可以達(dá)到最佳性能,但運(yùn)行速度只有5fps。這是預(yù)期的,因?yàn)楹凶觾?yōu)化策略需要更多的計(jì)算來(lái)提供更高的IOU。
本文的模型在精度指標(biāo)下尤其強(qiáng)大,顯示出相對(duì)于基于相關(guān)濾波器的跟蹤器CSRDCF[37]和STRCF[32]的顯著優(yōu)勢(shì)。這并不奇怪,因?yàn)镾iamMask依賴于更豐富的對(duì)象表示,如表1所示。有趣的是,與本文相似的是,(SA Siam R)[17]通過(guò)考慮多個(gè)旋轉(zhuǎn)和重新縮放的邊界框來(lái)實(shí)現(xiàn)更精確的目標(biāo)表示。但是,它們的表示仍被限制在固定長(zhǎng)寬比框中。表3給出了在VOT-2018和-2016上采用不同盒子生成策略的SiamMask的進(jìn)一步結(jié)果。SiamMask box是指在對(duì)掩碼分支進(jìn)行訓(xùn)練的情況下,采用SiamMask的box分支進(jìn)行推理。本文可以通過(guò)使用mask分支來(lái)生成框,觀察到所有評(píng)估指標(biāo)的明顯改進(jìn)。
3.2. Evaluation for semi-supervised VOS
本文的模型,一旦訓(xùn)練,也可以用于VOS的任務(wù),以實(shí)現(xiàn)競(jìng)爭(zhēng)性能,而不需要在測(cè)試時(shí)進(jìn)行任何調(diào)整。重要的是,與典型的VOS方法不同,本文的方法可以在線操作,實(shí)時(shí)運(yùn)行,只需要簡(jiǎn)單的邊界框初始化。
數(shù)據(jù)集和設(shè)置
本文報(bào)告了SiamMask在DAVIS-2016[46]、DAVIS-2017[51]和YouTube VOS[64]基準(zhǔn)上的表現(xiàn)。對(duì)于這兩個(gè)DAVIS數(shù)據(jù)集,本文使用了官方性能度量:Jaccard索引(J)表示區(qū)域相似性,F度量(F)表示輪廓精度。對(duì)于每個(gè)測(cè)度C∈{J,F},考慮了三個(gè)統(tǒng)計(jì)量:平均CM、回憶CO和衰減CD,這三個(gè)統(tǒng)計(jì)量告訴本文隨著時(shí)間的推移性能的增益/損失[46]。在[64]之后,YouTube VOS上的最終結(jié)果O是四個(gè)指標(biāo)的平均值:J表示已見(jiàn)類別,F表示已見(jiàn)類別,J表示未見(jiàn)類別,F表示未見(jiàn)類別。為了初始化SiamMask,本文從第一幀提供的掩碼中提取軸對(duì)齊的邊界框(最小最大策略,圖3)。與大多數(shù)VOS方法類似,如果同一視頻(DAVIS-2017)中有多個(gè)對(duì)象,本文只需執(zhí)行多個(gè)推斷。
DAVIS和YouTube VOS的結(jié)果
在半監(jiān)督設(shè)置中,VOS方法使用二進(jìn)制掩碼初始化[44],其中許多方法在測(cè)試時(shí)需要計(jì)算密集型技術(shù),例如finetuning[39、45、2、60]、數(shù)據(jù)增強(qiáng)[25、33]、對(duì)MRF/CRF的推斷[61、57、40、2]和光流[57、2、45、33、10]。因此,VOS技術(shù)需要幾分鐘來(lái)處理一個(gè)短序列并不少見(jiàn)。顯然,這些策略使得在線應(yīng)用(這是本文的重點(diǎn))變得不可能。因此,在本文的比較(表4、表5和表6)中,本文主要關(guān)注最新的快速方法。
這三個(gè)表顯示了SiamMask如何被視為在線VOS的一個(gè)強(qiáng)大基線。
首先,它幾乎比精確方法快兩個(gè)數(shù)量級(jí),如OnAVOS[60]或SFL[11]。
其次,它與不采用精確調(diào)諧的最新VOS方法相比具有競(jìng)爭(zhēng)力,同時(shí)其效率是最快方法(即OSMN[66]和RGMP[63])的四倍。有趣的是,本文注意到SiamMask在DAVIS-2016和DAVIS-2017上的區(qū)域相似性(JD,)和輪廓精度(FD)均達(dá)到低衰減[46]。這表明本文的方法在時(shí)間上是穩(wěn)健的,因此它適用于特別長(zhǎng)的序列。VOT和DAVIS序列的SiamMask定性結(jié)果如圖4和附錄所示。盡管速度很快,SiamMask即使在有干擾的情況下也能產(chǎn)生精確的分割掩模。
3.3. Further analysis
在本節(jié)中,本文將介紹消融研究、失敗案例和本文方法的時(shí)間安排。 網(wǎng)絡(luò)體系結(jié)構(gòu)
在表7中,AN和RN表示本文是否使用AlexNet或ResNet-50作為共享主干fθ(圖2),而使用“w/o R”表示該方法不使用Pinheiro等人的增強(qiáng)策略。[50]。 根據(jù)表7的結(jié)果,可以提出若干意見(jiàn)。
(1)表7中的第一組行表明,通過(guò)簡(jiǎn)單地更新fθ的體系結(jié)構(gòu),可以實(shí)現(xiàn)重要的性能改進(jìn)。然而,這是以速度為代價(jià)的,特別是對(duì)于SiamRPN。
(2) SiamMask-2B和SiamMask在其基線(fθ相同)SiamFC和SiamRPN上有顯著改善。
(3)有趣的是,Pinheiro等人[50]的競(jìng)爭(zhēng)方法對(duì)于輪廓精度FM非常重要,但對(duì)于其他度量則不那么重要。
多任務(wù)訓(xùn)練
為了理清多任務(wù)訓(xùn)練的效果,本文又進(jìn)行了兩個(gè)實(shí)驗(yàn)。結(jié)果見(jiàn)表7和表3。為了實(shí)現(xiàn)這一點(diǎn),本文在推理過(guò)程中修改了SiamMask的兩個(gè)變體,以便它們分別從score分支(SiamMask-2B-score)或box分支(SiamMask box)報(bào)告軸對(duì)齊的邊界框。因此,盡管經(jīng)過(guò)訓(xùn)練,但在引用期間不使用掩碼分支。
本文可以觀察到這兩種變體相對(duì)于它們的無(wú)掩模分支對(duì)應(yīng)物(SiamFC和SiamRPN)如何獲得改進(jìn):在VOT2018上,兩個(gè)分支的EAO從0.251到0.265,三個(gè)分支的EAO從0.359到0.363。因此,這些差距完全是由于多任務(wù)培訓(xùn)的好處。
時(shí)機(jī)
SiamMask在沒(méi)有對(duì)測(cè)試序列進(jìn)行任何調(diào)整的情況下在線運(yùn)行。在單個(gè)NVIDIA Titan X GPU上,本文分別測(cè)量了兩個(gè)分支和三個(gè)分支變體的平均每秒55幀和60幀的速度。注意,最大的計(jì)算負(fù)擔(dān)來(lái)自于特征提取器fθ。
失敗案例
最后,本文討論了兩個(gè)SiamMask失敗的場(chǎng)景:運(yùn)動(dòng)模糊和“非對(duì)象”模式(圖5)。盡管性質(zhì)不同,但這兩種情況可以說(shuō)是由于在諸如YouTube VOS[64]這樣的訓(xùn)練集中完全缺乏類似的訓(xùn)練樣本,該訓(xùn)練集中在可以從前景中明確分割的對(duì)象上。
- Conclusion
本文介紹了SiamMask,這是一種簡(jiǎn)單的方法,使完全卷積的siamesk跟蹤器能夠生成目標(biāo)對(duì)象的類不可知的二進(jìn)制分割掩碼。本文展示了它如何成功地應(yīng)用于視覺(jué)目標(biāo)跟蹤和半監(jiān)督視頻目標(biāo)分割兩個(gè)任務(wù),顯示出比最先進(jìn)的跟蹤器更好的精度,同時(shí),在VOS方法中速度最快。本文提出的SiamMask的兩個(gè)變體是用一個(gè)簡(jiǎn)單的邊界框初始化的,在線操作,實(shí)時(shí)運(yùn)行,不需要對(duì)測(cè)試序列進(jìn)行任何調(diào)整。本文希望本文的工作能啟發(fā)進(jìn)一步的研究,將視覺(jué)目標(biāo)跟蹤和視頻目標(biāo)分割這兩個(gè)問(wèn)題結(jié)合起來(lái)考慮。
總結(jié)
- 上一篇: 端到端全景分割
- 下一篇: Camera Calibration 相