一文尽览!弱监督语义/实例/全景分割全面调研(2022最新综述)
后臺回復【ECCV2022】獲取ECCV2022所有自動駕駛方向論文!
論文鏈接:https://arxiv.org/pdf/2207.01223.pdf
汽車人的碎碎念
分割,作為最基礎的視覺感知任務和自動駕駛底層的感知模塊,承擔著很重要的作用。但逐像素的標注需求飽受詬病,相比于目標框標注,屬實是太太太太慢了。今天分享一篇上交投稿TPAMI的文章,論文很全面的調研了廣義上的弱監督分割算法,又涵蓋了語義、實例和全景三個主流的分割任務。特別是基于目標框的弱監督分割算法,未來有很大的研究價值和落地價值,相關算法如BoxInst、DiscoBox和ECCV2022的BoxLevelset已經證明了,只用目標框可以實現可靠的分割性能。論文很贊,內容很扎實,分割方向的同學一定不要錯過!
摘要
近幾年,分割技術獲得了長足的進步。然而,當前主流的分割算法仍然需要依賴大量的標注數據,而逐像素標注十分昂貴、費時且費力。為了減輕這一負擔,過去幾年研究人員越來越關注構建標簽高效的深度學習算法。本文全面回顧了標簽高效的分割算法。為此,本文首創了一種分類法,根據不同類型的弱標簽(包括無監督、粗監督、不完全監督和噪聲監督)提供的監督信息和分割問題的類型(包括語義/實例/全景分割)來進行歸納。進一步,本文從一個統一的角度總結現有的標簽高效分割算法,討論如何彌補弱監督和全監督預測之間的差距——目前的算法大多基于啟發式先驗,如跨像素相似度、跨標簽約束、跨視圖一致性、跨圖像關系等。最后,本文討論了未來可能的研究方向。
簡介
本文旨在為標簽高效的深度分割算法提供一個全面的綜述。這些方法專注于不同的任務,本文將任務定義為:語義、實例和全景分割三個方向,且具有某種類型的弱監督信息。為了針對不同的問題歸納這些方法,需要解決如下兩個問題:
-
1)如何為這些方法建立分類法?
-
2)如何從統一的角度總結這些方法中使用的策略?
本文從弱標簽的類型著手,如下圖進行分類。該分類主要依據弱標簽類型輔以分割類型進行構建:橫軸和縱軸分別表示不同類型的弱監督信息和分割任務;每個交叉點表示帶有對應弱標簽信息的分割任務,其中實心點表示已有相關工作進行探索,空心點則表示沒有。
弱監督的類型具體包括:
-
無監督:所有訓練圖像均無任何形式的標注,如下圖(a)所示;
-
粗監督:所有訓練均有標注,但標注是粗糙的,即無像素級別的標注,如下圖(b)所示。依據粗標簽的類型,進一步可細分為image-level的標簽、box-level的標簽和scribble-level的標簽;
-
不完整監督:訓練圖像只有部分有逐像素標注,如下圖(c)所示。不完全監督進一步可細分為:半監督,即部分圖像有逐像素標注,其余圖像沒有標注;domain-specific監督,即源域有標注,目標域無標注;偏監督(也叫部分監督,partial supervision),即部分類別有逐像素標注,其余類別有粗標簽,如box信息。
-
噪聲監督:所有訓練圖像都有逐像素標注,但存在標注錯誤,如下圖(d)所示。
下表總結了相關方向的代表性算法:
問題定義如下表所示:
無監督
無監督(語義)分割的早期階段,主要是通過人工設計的圖像特征進行聚類實現分割,如K-means和Graph Cut [55]等,用于將圖像劃分為多個具有高自相似性(high self-similarities)的部分。最近,隨著無監督特征表示學習的快速發展,特別是MoCo [56]、SimCLR [57]、BYOL [58]等算法,無監督密集特征表示學習極大的促進了無監督分割的發展。無監督分割的目的是,對于沒有任何標注的給定圖像,網絡需要學習密集的特征圖。一個好的網絡學習得到特征圖有如下特性:來自相同語義區域(object/stuff)的像素具有相似的特征表示,而來自不同語義區域的像素則具有不同的特征表示。學習良好的密集特征圖可以直接促進分割模型的訓練。
由于沒有監督信息,實現無監督分割的關鍵是如何獲取監督信息。當前的工作試圖根據一些啟發式先驗來生成密集的自監督信息,例如跨像素相似性、跨視圖一致性和跨圖像關聯(cross-image relation)。
跨像素相似性
跨像素相似性(Cross-pixel similarity)表示具有高度相似線索(如顏色、亮度和紋理)的像素可能屬于圖像中的同一語義區域。由于該先驗源自感知分組原理,因此幾乎所有的無監督語義分割算法都基于此原理生成密集的自監督信息。
Hwang等[42]提出首篇用于語義分割的無監督深度學習方法SegSort。其首先使用輪廓檢測器[59]、[60],通過聚類生成密集的自監督信息,即偽片段(pseudo segment)。然后,提取每個偽片段的原型,即片段內像素的均值。SegSort的訓練目標是將偽片段內像素的特征表示拉向該偽片段的原型,并將其與其他偽片段區分開來。
跨視圖相似性
跨視圖相似性(Cross-view consistency)指一個目標在不同視圖中應表現出一致性,是無監督語義分割的另一個常用的先驗。該先驗廣泛應用于基于對比學習的方法[56]、[57]和基于孿生結構的[58]、[61]、[62]無監督表示學習,并啟發了無監督密集表示學習。
跨視圖一致性中的對比學習
在對比學習中,給定圖像X,首先生成圖像的兩個視圖,其中一個視圖作為query ,另一個作為positive key 。對比學習的優化目標是最小化如下的對比損失:
上式也被稱為InfoNCE損失。對比學習的兩個關鍵是:1)如何生成不同的視圖;2)如何確定positive/negative pairs。
Pinheiro等[63]首次將對比學習擴展到密集表示學習。他們提出了View-Agnostic Dense Representation (VADeR) [63]算法,一種像素級對比學習方法,下圖對比了VADeR和圖像級對比學習。
Gansbeke 等人[23],遵循VADeR [63]的思想,提出了用于無監督語義分割的MaskContrast算法,其結合了SegSort [42] 和對比學習。此外還通過數據增強為每個圖像生成兩個視圖(一個查詢視圖和一個關鍵視圖)。其他的工作如[53、66]可以具體參考相關論文。
跨視圖一致性中的孿生結構
基于孿生結構的無監督表示學習也生成了一幅圖像的兩個視圖,但它是在沒有負樣本的情況下最大化兩個視圖之間的一致性,如下圖所示。通常,一個視圖的表示是在線更新的,而梯度流不會傳到孿生網絡中[62]。此外,跨視圖的一致性通常由兩個視圖之間的集群分配關系(cluster assignment relation)表示[61]。
Ji等[43]探索了基于孿生結構的密集表示學習在無監督分割中的應用。提出了Invariant Information Clustering(IIC),它最大化了來自不同視圖的相鄰像素之間的互信息,以確保跨視圖的一致性。互信息是基于聚類計算的,即分別來自兩個視圖的兩個相鄰像素的聯合分布,定義為它們在一系列聚類質心上的相似性分布。其他的工作如[54]可以具體參考相關論文。
跨圖像關聯
跨圖像的同一類別目標具有類似的語義關系。然而,由于沒有監督信息,如何在圖像中挖掘相似語義的像素比較困難。為了解決這個問題,目前的方法是使用從無監督預訓練中學習到的特征,如MoCo [56] 和BYOL [58],作為建立跨圖像關聯的基礎,然后對特征進行細化。
Zhang等[67]提出了一種像素級對比學習方法,通過隱式涉及跨圖像關聯進行無監督語義分割。其對無監督預訓練學習到的訓練圖像的特征進行聚類,并能夠根據聚類結果為所有訓練圖像生成逐像素的偽標簽,偽標簽則用于在對比學習中選擇positive/negative pair。其余工作如[24]可以參考具體論文。
討論
無監督語義分割最近成為了一個很有前途的方向,順應了無監督密集表示學習的浪潮。[66] 的實驗結果表明,基于無監督語義分割學習得到的網絡,之后進行全監督微調可以得到更好的結果。比如,基于CP2 [66]預訓練的DeepLabV3 [9]性能為77.6% mIoU,優于全監督的76.0%。
盡管如此,針對無監督語義分割的密集表示學習仍處于初步的探索階段。與圖像級表示學習不同,密集表示學習需要一些區域先驗來指導像素之間的關系,即它們是否屬于同一語義區域。這與無監督語義分割的目標基本相同。因此,無監督語義分割存在先有雞還是先有蛋的情況。如何在初始階段引入更準確的區域先驗,或者如何在學習過程中對其進行細化,值得未來進一步探索。
粗監督
粗監督可以是image-level(類別標簽)、box-level(類別+bbox)、scribble-level(標注像素子集)級別的監督信息。具有粗監督信息的分割也被稱為弱監督分割。雖然更廣泛的意義上,弱監督也可以指其他類型的分割,如不完全分割。但在本節中弱監督分割特指粗監督分割。
如圖2和表2所示,根據粗略標注的類型,粗監督可以是imagelevel(每張訓練圖像只提供類別標簽)、box-level(除了類別標簽外,還包括object bounding box) 為每個訓練圖像注釋)或涂鴉級別(每個訓練圖像中的像素子集被注釋)。具有粗監督的分割在文獻中通常也稱為弱監督分割。雖然在更廣泛的意義上,這個術語也可以指其他類型的弱監督分割,例如不完全監督,我們根據本節寶貴的文獻專門使用它來指代粗監督分割。
圖像級別的監督
語義分割中的圖像級監督
首先回顧一下使用圖像級監督實現語義分割的方法。這個問題的難點在于圖像級監督和像素級監督的差距太大了。前者用于訓練分類模型,而后者則用于輸出object/stuff的掩碼(mask)。
為了彌補這種監督信息上的差距,如上圖所示,研究人員遵循兩階段的范式。第一階段使用圖像級標簽訓練的分類模型生成每張圖像的密集偽標簽,然后第二階段基于偽標簽訓練語義分割模型,利用種子區域(seed areas)生成偽標簽的示意圖如下圖所示。由于偽標簽不可避免的存在噪聲,因此利用偽標簽訓練分割模型可以等效為帶噪聲監督的分割問題。所以本節主要分析第一階段的相關算法。
第一階段的目標是生成高質量的偽標簽,包括兩個步驟:
-
1)根據分類模型得出的信息,為每個訓練圖像生成一些種子區域(seed areas)。這一步通常是通過計算分類模型的類激活圖(CAM)[69]、[70]、[71]來實現的;
-
2)然后第二步,通過將語義信息從種子區域傳播到整個圖像來生成偽標簽(密集標簽);
這個過程通常是迭代的,包括分割模型的self-training。現有方法嘗試優化種子區域以使其更完整和準確,或者在種子區域的基礎上生成更可靠的偽標簽。下表對相關算法進行了總結。
Seed area refinement by cross-label constraint
所有圖像級監督的語義分割算法都使用了類激活圖 (CAM) [69]、[70]、[71]。CAM本質是利用交叉標簽約束(cross-label constraint)的先驗,來根據分類模型提供的信息定位圖像中的種子區域。然而,CAM存在兩個局限性:1)不完整性:CAM 通常無法覆蓋目標類的整個語義區域;2)冗余:一個CAM可能與其他類的區域重疊。為了解決這些問題,研究人員設計了如下幾種改進CAM的策略,為種子區域的細化生成更好的類CAM。
-
Expanding by ensemble:由于CAM通常無法覆蓋目標類的整個語義區域,因此直觀的策略是通過不同CAM的集合來擴展種子區域。常見的算法有[44、84、86];
-
Re-finding by erasing:另一個直觀的策略是擦除當前的CAM,然后強制分類模型重新尋找其他區域以形成新的CAM。新舊CAM的集成可以擴展種子區域以覆蓋目標類更完整的語義區域。常見的算法有[78、90、94];
-
Discovering by optimization:除了融合不同的 CAM,還可以通過鼓勵分類模型在優化過程中挖掘更大的區域來發現種子區域。常見的算法有[87、91、93];
-
Reasoning by decoupling:CAM與非目標類區域重疊的原因,可能是存在共現類(co-occurrence classes),例如“馬”和“人”經常同時出現。共現類誤導了分類模型。相關研究有[88、89]。
Seed area refinement by cross-pixel similarity
“擦除”框架可能會誤導種子區域逐漸擴展到語義錯誤的地方。為了解決這個問題,一些工作利用跨像素相似的先驗來指導種子區域的擴展。這可以通過利用saliency map[99]來實例化,以確保擴展到具有相似語義的區域。
Hou等[45] 提出了自擦除網絡 (SeeNet),這是首篇嘗試使用saliency map[99] 來指導種子區域細化的工作。saliency map隨后被廣泛使用[75、76]。
Seed area refinement by cross-view consistency
一些工作提出使用跨視圖一致性來提高種子區域的質量,因為跨視圖一致性可以促進從同一圖像的不同空間擾動獲得的CAM之間的語義一致性 [26]、[92]。
Wang等[26]設計了一個用于種子區域細化的孿生網絡。孿生網絡包含兩個具有不同數據增強的分支,其為每個輸入圖像增加了額外的仿射變換。孿生網絡的目的是盡可能保證從兩個分支計算的CAM是一致的。
Seed area refinement by cross-image relation
跨圖像關聯通過鼓勵具有semantic co-occurrence的不同圖像之間的像素級交互來增強種子區域生成的魯棒性。
Sun等[73] 提出了兩個neural co-attentions來互補地捕獲具有semantic co-occurrence的每對圖像之間的跨圖像語義相似性和差異。一個是co-attention,旨在幫助CAM覆蓋屬于同一類別目標的互補部分,另一個是contrastive co-attention,旨在幫助CAM區分屬于不同類別目標的語義。
Pseudo mask generation by cross-pixel similarity
偽標簽通常以迭代方式生成,即從種子區域開始,交替描述當前偽標簽(由種子區域初始化),然后使用self-training學習的分割模型更新偽標簽。跨像素相似度的先驗被廣泛用于偽標簽的描述,其中的關鍵是如何衡量像素之間的相似度。相似度可以基于低級特征(例如顏色和紋理)[72]、[77]、[79]、[80] 或高級語義[25]、[83]、[85]進行判斷。
具有低級信息的相似度學習:Kolesnikov等[77] 提出了從種子區域生成偽標簽的三個原則:1)僅使用高置信度的偽標簽進行訓練;2)更新后的偽標簽應與對應的圖像級標簽一致;3) 約束更新的偽標簽以匹配目標邊界。這三個原則在后續工作中被廣泛采用[72]、[77]、[79]、[80]。
具有高級特征的相似度學習:相似度也可以通過學習得到的特征之間的相似性來衡量。Ahn等[25] 提出AffinityNet,來學習由種子區域的語義標簽監督的像素級特征提取器。訓練后的 AffinityNet用于構建像素到像素的語義相似度矩陣,該矩陣進一步使用random walk [103]來生成偽標簽。
Pseudo mask generation by cross-image relation
跨圖像關聯也對相似性學習有益,Fan等[47] 構建了一個跨圖像關聯模塊 (CIAN),用于從具有semantic co-occurrence的圖像對生成偽標簽。在每對圖像中,一張圖像作為查詢圖像,另一張作為參考圖像。查詢圖像的特征圖由參考圖像的特征圖根據兩者之間的逐像素相似性進行調整,從而產生更完整和準確的偽標簽。
實例分割中的圖像級監督
如下圖所示,類似于圖像級監督語義分割的策略,相關的實例分割算法也需要生成偽標簽,然后訓練分割模型。但偽標簽是實例級的(語義分割是stuff級)。實例級偽標簽可以通過:
-
1)根據跨像素相似度結合self-training來挖掘實例級種子區域(下圖灰色線);
-
2)根據跨標簽約束進行端到端訓練(下圖藍色線)。
下表中總結了相關算法。
Instance-level seed area generation
利用peak locating [31]得到實例的種子區域。PRM [31]是第一個通過引入峰值響應圖來解決此任務的工作。分類模型中的高置信度響應(峰值)區域暗示了屬于該實例的可能位置。種子區域的峰值被一個可學習的kernel逐漸合并成幾個峰值,每個峰值都對應一個實例。如下圖所示,峰值響應圖是通過反向傳播得到的。
Instance-level pseudo mask generation
Expounding by self-training:從實例級種子區域生成實例級偽標簽通常涉及self-training。WISE[105]和IAM[104]是基于PRM [31]實現該任務的工作。WISE選擇PRM輸出的局部最大值作為偽標簽來訓練實例分割模型。
Generating by end-to-end training:上述方法包含多個離線階段,還有一些端到端的方法,它們根據跨標簽約束直接將圖像級標簽轉換為實例級偽標簽。Ge等[32] 提出Label-PEnet,以在線和coarse-to-fine的方式將圖像級標簽轉換為像素級標簽。Label-PEnet設計了一個級聯管道,由四個并行模塊組成,即分類、目標檢測、實例細化和實例分割模塊。
全景分割中的圖像級監督
圖像級監督的全景分割方案尚未得到廣泛探索。目前已知的只有[28],其提出一個聯合thing-and-stuff挖掘 (JTSM) 框架,其中mask-of-interest pooling旨在為任意類別的segments生成固定大小的像素精確特征表示。根據交叉標簽約束,thing和stuff的統一特征表示能夠通過多實例學習將像素級偽標簽連接到圖像級標簽。偽標簽由Grabcut [1]根據跨像素相似度進行優化,并用于訓練全景分割模型。
目標框級別的監督
語義分割中的目標框監督
Box比分類標簽提供了更多的監督信息,因此縮小了定位目標的搜索空間。使用box監督進行語義分割的核心挑戰是如何區分邊界框內的前景和背景。由于帶標注的邊界框與類CAM map的作用相似,如下圖所示,所以一般包含如下兩個步驟:
-
1)根據跨像素相似度從邊界框中挖掘偽標簽;
-
2)基于偽標簽訓練分割模型。
下表總結了相關算法。
Dai等[111]首次進行嘗試,他們提出了一種交替更新偽標簽和分割模型的方法。具體來說,作者首先采用 MCG [112],一種無監督的region proposal方法,為每張圖像生成約2000個候選區域。接著重復執行以下三個步驟:
-
1)使用分割模型預測每個候選區域的語義標簽;
-
2)對于每一個帶標注的bounding box,選擇與真值重疊最大且類別一致的候選區域作為偽標簽;
-
3)利用偽標簽更新分割模型。
其他工作如[34、114、115]可以參考對應論文。
實例分割中的目標框監督
使用box實現實例分割比使用分類標簽更容易,因為box已經提供了實例的大體位置。剩下的問題也是如何區分box內的前景和背景。如下圖所示的解決方法:
-
1)根據跨標簽約束在box內生成偽標簽,然后進行self-training,如下圖灰色線;
-
2)直接利用跨標簽約束結合特定損失函數進行端到端訓練,如下圖藍色線。
下表總結了相關算法:
Mask prediction by self-training
首篇工作是SDI[35]。對于每個給定的box,SDI使用Grabcut [1]生成初始偽標簽,之后進行self-training并迭代優化偽標簽的質量,最終輸出預測結果。還有一些工作如BBAM [116]可以參考相關論文。
Mask prediction by end-to-end training
BBTP [36]和 BoxInst [119]是兩種端到端訓練的實例分割方法。這兩種方法都設計了一個投影損失來直接實現跨標簽約束,如下圖所示。投影損失保證了box與預測mask沿其四個邊的投影之間的一致性。缺點也很明顯,可能導致mask是一個矩形。因此,BBTP和Boxinst 還提出了pairwise loss,它們分別根據空間位置和顏色定義了跨像素的相似度。
全景分割中的目標框監督
相關探索比較少,WPS [41]是唯一一篇。WPS [41]首先使用Grad-CAM [70]獲得前景和背景類別的heatmap,然后使用 Grabcut [1]從heatmap中定位每個實例的偽標簽。
涂鴉級別的監督
涂鴉即僅提供一小部分像素的標注,也可以當做是一種種子區域。下圖展示了涂鴉監督下的語義分割的主流范式。解決這個問題的關鍵是如何將語義信息從稀疏的涂鴉傳播到所有其他未標記的像素上。當前的方法通過利用圖像的內部先驗來實現這一點,即跨像素相似度。下表總結了相關算法。
Di 等[33]首次通過graph model將信息從涂鴉傳播到未標記的像素。graph model建立在超像素上[120],其中節點是超像素,邊緣表示相鄰節點之間的相似性,相似性通過顏色和紋理等低級外觀線索來衡量。進一步通過交替方案聯合優化了圖模型和分割模型:固定分割模型,利用multi-label graph cuts solver [121]為圖模型中每個未標記節點分配語義標簽,生成偽標簽;基于偽標簽更新分割模型。此外還有[122,123,124]等相關工作。
上述方法都需要一個額外的模型來生成偽標簽。還有一些方法可以通過設計損失函數直接優化分割模型,如[102、125]。
討論
粗監督降低了對逐像素標注的需求。利用粗標注的主要流程是多階段的:1)通過傳播或挖掘從種子區域生成偽標簽;2)基于偽標簽訓練分割模型。當提供相對精細的種子區域時,如目標框或涂鴉級注釋,粗監督分割的性能可以比肩全監督。然而,基于CAM的算法不適合小目標和帶孔洞的目標。對于這個問題,端到端的方法可能是一條路,值得進一步探索。
不完全監督
不完全監督可分為 :
-
1)半監督;
-
2)特定領域監督;
-
3)部分監督。
因此,這三種弱監督的分割分別稱為半監督分割、域自適應分割和部分監督分割。
半監督
語義分割中的半監督
半監督指部分圖像帶有逐像素標注,其余圖像則無標注。半監督語義分割的目的是利用大量無標簽數據提升分割性能。最常見的是self-training,如上圖所示。首先使用帶標注的圖像訓練模型,然后預測無標簽圖像的偽標簽,接著一起訓練分割模型。偽標簽不可避免的存在噪聲,因此當前的半監督語義分割方法方案有兩種:1)根據跨圖像關聯改進偽標簽以隱式提高其可靠性;2)根據跨視圖一致性顯式引入額外的監督來進行正則化。下表總結了相關算法。
Pseudo label refinement for self-training
直觀地說,偽標簽的可靠性可以通過預測置信度來確定。現有方法通過迭代進行self-training或忽略低置信區域的方法來提升偽標簽的質量。相關算法有[49、132、133].
Pseudo label regularization by cross-view consistency
偽標簽正則化可以從無監督密集表示學習中受益,因為它們都旨在訓練無標簽圖像上的分割模型。因此,孿生結構和對比學習也被用于半監督語義分割,以確保同一圖像在不同視圖下的偽標簽之間的跨視圖一致性。
基于孿生結構:下圖展示了幾種典型的孿生結構。GCT [127]利用兩個相同結構但初始化不同的分割網絡,分別從無標簽圖像的兩個不同視圖計算對應的分割概率圖。概率圖的一致性作為額外的監督信息。其他工作如[129、29、130]可以參考相關論文。
基于對比學習:Zhong等[131]利用逐像素對比學習來促進中間層的特征學習,相關工作還有[30]。
域適應分割
域適應分割指的是,源域有逐像素標注,而目標域則沒有,且目標域與源域存在一定的差異(domain gap)。目標是使用源域數據訓練的分割模型可以更好地泛化到目標域上。域自適應語義分割本質上類似于半監督語義分割,唯一的區別是標注圖像和無標注圖像之間是否存在domain gap。如上圖所示,域自適應語義分割的主流范式包含一個額外的步驟:縮小域差距。這個額外的步驟可以通過對抗學習、域混合或偽目標域上的mask質量改進來實現。下表總結了相關算法。
Adaptation by adversarial learning:對抗學習用于在圖像空間或特征空間中對齊源域圖像和目標域圖像,生成式對抗網絡 (GAN) [144] 比較擅長這事。相關算法可以參考[39], [136], [137], [141]。
Adaptation by domain mixing:另一種縮小域差距的策略是通過基于混合的復制粘貼來混合來自不同域的圖像[145]、[146]。
Adaptation by pseudo mask quality improvement:由于域間隙,在目標域圖像上生成的偽標簽通常質量不高。這種偽標簽質量的改進過程通常涉及一些先驗,例如跨像素相似性和跨視圖一致性[40], [138], [139], [140], [142]。
部分監督
實例分割中的部分監督
部分監督(也叫偏監督)的基本設置是,目標類別分為兩個不相交的部分:基本和新穎,兩個部分都包含box信息,但只有基本類別有逐像素標注。部分監督可以理解為半監督分割的一種變體。
直觀地說,這項任務的難點在于對新類的box信息和逐像素預測之間的監督差距。如上圖所示,現有的方法主要遵循先檢測后分割的范式,如Mask R-CNN [147],并探索如何利用相關先驗從檢測模型中提取輔助信息來提升新類別的分割性能。下表總結了相關算法。
Auxiliary information from cross-label constraint
從box信息中,可以利用跨標簽約束的先驗提取兩類用于分割模型訓練的輔助信息。一個是框的類別標簽和分割mask之間的連接;如CAM [69]、[70] 中所探討的;另一個是框位置信息和分割Mask [148]之間的連接。相關的工作還有[37、148]。
Auxiliary information from cross-pixel similarity
部分監督的一個重要目標是探索基本類和新類之間與類別無關的共性,可用于提高新類別的特征識別能力。從低級(顏色、紋理)或高級(語義關系、相似度)信息中利用跨像素相似性的先驗是實現這一目標的途徑。相關工作有[38、149、51]。
Auxiliary information from cross-image relation
Kuo等提出了ShapeMask [52],通過探索跨圖像關聯中常見的形狀先驗來解決部分監督實例分割,因為來自不同圖像中相似類別的目標應該具有相似的粗略形狀。通過對基本類別的實例標注進行聚類獲得的形狀先驗,可以進行線性組裝,然后泛化到不同的類別,從而幫助分割頭逐步細化預測結果。
Auxiliary information from a larger segmentation model
Birodkar等提出Deep-MAC [150],其從一個新的角度研究了部分監督的實例分割,即分割頭的capacity。Deep-MAC發現更強大的分割頭可以消除新類別的監督缺失造成的差距,Deep-MAC用更強大的網絡(如例如 Hourglass-100)替換了Mask RCNN中的原始分割頭,顯著提升了分割性能。
討論
不完全監督分割減少了對逐像素標注訓練圖像數量的需求。解決這個問題的策略主要包含兩個方向:1)將利用標注數據訓練的分割模型遷移到未標注數據上;2)在未標注數據上生成密集的自監督信息,類似于無監督分割的相關策略。最先進的半監督語義分割算法(75.9 mIoU)基本與全監督模型持平(76.0 mIoU)。然而,當標注數據和無標注數據之間存在較大的分布差距時,分割的性能還比較受限。因此,如何設計更有效的隨分布變化的策略,以便充分利用大量無標注數據仍然值得進一步探索。
噪聲監督
語義分割中的噪聲監督
標簽歧義通常存在于分割標注中。鑒于偽標簽不可避免地存在一些噪聲,如 [27] 中所指出的,利用偽標簽訓練分割模型本質上是一個有噪聲的語義分割問題。
Liu等[27]觀察到一種現象,即隨著訓練的進行,分割模型傾向于記住標注中的錯誤。為了防止對錯誤的過擬合,他們設計了一種自適應的早停機制并強制執行多尺度跨視圖一致性,以提高對標注錯誤的魯棒性。李等[151]提出通過不確定性估計來發現噪聲標簽[152],根據跨視圖一致性,計算不同尺度下預測結果之間的像素方差來實現。
結論和討論
標簽高效的分割研究已成為計算機視覺中的一個活躍領域,因為實用。逐像素標注是出了名的昂貴且耗時。近年來,已經有很多算法用于解決不同類型的弱監督分割問題。實驗結果表明,這些標簽高效的分割方法取得了長足的進步。然而全監督性能上限還有很大的提升空間。
挑戰
1)The supervision gap
標簽高效分割的主要挑戰是密集預測和不完整標簽之間的監督差距。盡管已經有很多的算法嘗試解決,但如何彌合監督差距仍然是一個懸而未決的開放問題。此外,現有相關的分割模型在擴展到大量目標類別的能力方面受到限制。為了應對這些挑戰,需要做出更多的努力,包括更強大的主干,并從其他模式引入額外的監督信息,例如文本監督。
2)The openness issue
標簽高效分割問題與開放域(或開放詞匯)識別密切相關,新概念可以通過文本或少量示例等來描述。在這種情況下,一個重要的問題在于處理識別的開放性,特別是如何設計一個范式來將新概念添加到現有的識別系統中?僅僅依靠文本指導(例如,利用來自預訓練模型的文本嵌入)可能是不夠的,但從Web數據中搜索和提取知識是一個很有前途的解決方案。
3)Granularity vs. consistency
標簽高效分割旨在涵蓋更多視覺概念。然而,隨著概念數量的增加,識別粒度和一致性之間存在權衡。也就是說,當將細粒度的類別/或目標添加到字典中時,算法可能無法產生一致的識別結果,例如,當目標較小時,算法可能會選擇預測粗粒度標簽或部位,因此最好為這種情況調整評估方式。
潛在的研究方向
1)Zero-shot segmentation with text supervision
互聯網上有大量帶有文本監督的圖像,這使得學習大型模型(如 CLIP [153])可以橋接視覺表示和文本監督。這可能是一種實現零樣本分割的方法,即為看不見的目標類別學習分割模型。一些工作做了一些嘗試[154]、[155]、[156]、[157]、[158]。通常,他們通過將像素嵌入與相應語義類的文本嵌入對齊,進而將分割模型推廣到看不見的目標類別。這是一個值得探索的有前途的方向。
2)Label-efficient segmentation by vision transformers
現有的標簽高效分割方法主要使用卷積神經網絡。最近Transformer大放異彩,相關算法也有很多[165]、[166]、[167] ,[168],這要歸功于它們在建模長期依賴方面的強大能力。更重要的是,由先進的無監督表示學習方法(如 DINO [169]、BeiT [170]、MAE [171] 和 iBoT [172])預訓練的視覺Transformer的自注意力圖包含了豐富的圖像分割方面的信息,這提供了一種在沒有任何監督的情況下生成可靠偽標簽的潛在可能。這在未來也會是一個有趣且開放的方向。
3)Unexplored label-efficient segmentation problems
誠然,目前還存在一些尚未探索的標簽高效分割問題,例如基于噪聲標簽的實例分割和基于不完整標簽的全景分割。原因可能是缺乏數據集或足夠復雜的模型來獲得合理的結果。隨著標簽高效分割技術的發展,這些研究空白將在未來得到填補。
【自動駕駛之心】全棧技術交流群
自動駕駛之心是首個自動駕駛開發者社區,聚焦目標檢測、語義分割、全景分割、實例分割、關鍵點檢測、車道線、目標跟蹤、3D感知、多傳感器融合、SLAM、高精地圖、規劃控制、AI模型部署落地等方向;
加入我們:自動駕駛之心技術交流群匯總!
自動駕駛之心【知識星球】
想要了解更多自動駕駛感知(分類、檢測、分割、關鍵點、車道線、3D感知、多傳感器融合、目標跟蹤)、自動駕駛定位建圖(SLAM、高精地圖)、自動駕駛規劃控制、領域技術方案、AI模型部署落地實戰、行業動態、崗位發布,歡迎掃描下方二維碼,加入自動駕駛之心知識星球(三天內無條件退款),日常分享論文+代碼,這里匯聚行業和學術界大佬,前沿技術方向盡在掌握中,期待交流!
總結
以上是生活随笔為你收集整理的一文尽览!弱监督语义/实例/全景分割全面调研(2022最新综述)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 字体颜色以及发光字体
- 下一篇: 计算机任务计划命令,从菜鸟到高手,CMD