论文阅读—图像分割方法综述(二)(arXiv:[cs:cv]20200410)
上一篇章,主要介紹了目前圖像分割領(lǐng)域常用的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu),以及總結(jié)了十大圖像分割算法,本節(jié)繼續(xù)介紹剩余算法。
論文閱讀—圖像分割方法綜述(一)(arXiv:[cs:cv]20200410)
論文閱讀—圖像分割方法綜述(三)(arXiv:[cs:cv]20200410)
4.3 Encoder-Decoder Based Models
另一個流行的用于圖像分割的深度模型系列基于卷積編碼器-解碼器體系結(jié)構(gòu)。 大多數(shù)基于DL的分割工作都使用某種編碼器/解碼器模型,我們將這些工作分為兩類:用于一般分割的編碼器-解碼器模型和用于醫(yī)學(xué)圖像分割的編碼器/解碼器模型(以更好地區(qū)分應(yīng)用)。
3.4.1 Encoder-Decoder Models for General Segmentation
Noh等[43]發(fā)表了有關(guān)基于反卷積(也稱為轉(zhuǎn)置卷積)的語義分割的早期論文。 他們的模型(圖11)由兩部分組成,一個是使用VGG16的卷積層作為編碼器,另一個解碼器是將特征向量作為輸入并生成像素級類別概率圖的反卷積網(wǎng)絡(luò)。 反卷積網(wǎng)絡(luò)由反卷積層和反池化層組成,這些層識別逐個像素的類標(biāo)簽并預(yù)測分割掩碼。 該網(wǎng)絡(luò)在PASCAL VOC 2012數(shù)據(jù)集上取得了可喜的性能,并且在當(dāng)時(shí)沒有外部數(shù)據(jù)訓(xùn)練的方法中獲得了最高的準(zhǔn)確性(72.5%)。
在另一個被稱為SegNet的有前途的工作中,Badrinarayanan等人[44]提出了一種用于圖像分割的卷積編碼器-解碼器架構(gòu)(圖12)。類似于反卷積網(wǎng)絡(luò),SegNet的核心可訓(xùn)練分段引擎包括一個編碼器網(wǎng)絡(luò)(在拓?fù)渖吓cVGG16網(wǎng)絡(luò)中的13個卷積層相同),以及一個相應(yīng)的解碼器網(wǎng)絡(luò),其后是按像素分類層。 SegNet的主要新穎之處在于解碼器對其較低分辨率的輸入特征圖進(jìn)行升采樣。具體來說,它使用在相應(yīng)編碼器的最大池化步驟中計(jì)算出的合并索引來執(zhí)行非線性上采樣,從而無需學(xué)習(xí)上采樣。然后,將(稀疏的)上采樣圖與可訓(xùn)練的濾波器進(jìn)行卷積以生成密集的特征圖。與其他競爭性體系結(jié)構(gòu)相比,SegNet的可訓(xùn)練參數(shù)數(shù)量也明顯更少。同一作者還提出了貝葉斯版本的SegNet,以對卷積編碼器-解碼器網(wǎng)絡(luò)用于場景分割的固有不確定性建模[45]。
此類別中的另一個流行模型是最近開發(fā)的分割網(wǎng)絡(luò),高分辨率網(wǎng)絡(luò)(HRNet)[119]圖13。除了像DeConvNet,SegNet,U-Net和V-Net中那樣恢復(fù)高分辨率表示之外,HRNet還會保持較高的通過并行連接高到低分辨率卷積流,并在分辨率之間反復(fù)交換信息,通過編碼過程實(shí)現(xiàn)分辨率表示。
4.3.2 Encoder-Decoder Models for Medical and Biomedical Image Segmentation
最初開發(fā)了幾種用于醫(yī)學(xué)/生物醫(yī)學(xué)圖像分割的模型,這些模型受FCN和編碼器-解碼器模型的啟發(fā)。 U-Net [50]和V-Net [51]是兩個眾所周知的此類體系結(jié)構(gòu),現(xiàn)在也已在醫(yī)療領(lǐng)域之外使用。
Ronneberger等[50]提出了用于分割生物顯微鏡圖像的U-Net。他們的網(wǎng)絡(luò)和訓(xùn)練策略依靠數(shù)據(jù)增強(qiáng)來更有效地從可用的帶注釋的圖像中學(xué)習(xí)。 U-Net體系結(jié)構(gòu)(圖14)包括兩個部分,一個用于捕獲上下文的收縮路徑,以及一個能夠?qū)崿F(xiàn)精確定位的對稱擴(kuò)展路徑。下采樣或壓縮部分具有類似于FCN的體系結(jié)構(gòu),可通過3x3卷積提取特征。上采樣或擴(kuò)展部分使用上卷積,在增加特征圖尺寸的同時(shí)減少了特征圖的數(shù)量。來自網(wǎng)絡(luò)下采樣部分的特征圖將復(fù)制到上采樣部分,以避免丟失模式信息。最后,1x1卷積處理特征圖,以生成對輸入圖像的每個像素進(jìn)行分類的分割圖。 U-Net接受了30幅透射光顯微鏡圖像的培訓(xùn),并且在2015年贏得了ISBI細(xì)胞跟蹤挑戰(zhàn)賽的冠軍。
4.4 Multi-Scale and Pyramid Network Based Models
多尺度分析是圖像處理中的一個相當(dāng)古老的想法,已被部署在各種神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)中。 這種最突出的模型之一是Lin等人提出的特征金字塔網(wǎng)絡(luò)(FPN)。它主要是為目標(biāo)檢測而開發(fā)的,但后來也應(yīng)用于分割。 深度卷積神經(jīng)網(wǎng)絡(luò)固有的多尺度金字塔層次結(jié)構(gòu)用于以少量額外成本構(gòu)建特征金字塔。 為了合并低分辨率和高分辨率功能,FPN由自下而上的路徑,自上而下的路徑和橫向連接組成。 然后,通過3x3卷積處理級聯(lián)的特征圖,以生成每個階段的輸出。 最終,自頂向下路徑的每個階段都會生成預(yù)測以檢測物體。 對于圖像分割,作者使用兩個多層感知器(MLP)生成MASKS。圖16顯示了橫向連接和自上而下的方式路徑通過加法合并。
趙等[57]提出了金字塔場景解析網(wǎng)絡(luò)(PSPN),這是一個多尺度網(wǎng)絡(luò),可以更好地學(xué)習(xí)場景的全局上下文表示(圖17)。使用殘差網(wǎng)絡(luò)(ResNet)作為特征提取器得到特征圖。 然后將這些特征圖輸入金字塔池模塊,以區(qū)分不同比例的特征圖,它們以四個不同的比例合并,每個比例對應(yīng)于一個金字塔等級,并由1x1卷積層處理以減小其維度。 金字塔等級的輸出被上采樣并與初始特征圖連接,以捕獲本地和全局上下文信息。 最后,使用卷積層生成逐像素預(yù)測。
Ghiasi和Fowlkes [58]提出了一種基于拉普拉斯金字塔的多分辨率重建結(jié)構(gòu),該結(jié)構(gòu)使用了來自高分辨率特征圖的跳躍連接和乘性門控,以逐步完善從低分辨率圖重建的分割邊界。 他們表明,盡管卷積特征圖的表觀空間分辨率較低,但高維特征表示卻包含重要的子像素定位信息。
還有其他使用多尺度分析進(jìn)行細(xì)分的模型,例如DM-Net(動態(tài)多尺度過濾器網(wǎng)絡(luò))[59],上下文對比網(wǎng)絡(luò)和門控多尺度聚合(CCN)[60],自適應(yīng)金字塔上下文網(wǎng)絡(luò)(APC- Net)[61],多尺度上下文交織(MSCI)[62]和顯著對象分割[63]。
4.5 R-CNN Based Models (for Instance Segmentation)
區(qū)域卷積網(wǎng)絡(luò)(R-CNN)及其系列Fast R-CNN,Faster R-CNN,Mask-RCNN在目標(biāo)檢測應(yīng)用中被證明是成功的。 R-CNN的某些擴(kuò)展已被廣泛用于解決實(shí)例分割問題。 即同時(shí)執(zhí)行對象檢測和語義分割的任務(wù)。 特別是,為目標(biāo)檢測而提出的Faster R-CNN [64]結(jié)構(gòu)(圖18)使用區(qū)域建議網(wǎng)絡(luò)(RPN)生成候選框。RPN提取感興趣區(qū)域(RoI),RoIPool層從這些建議框中計(jì)算特征,以推斷出邊界框坐標(biāo)和對象的類別。
該模型的一個擴(kuò)展中He等人[65]提出了一種用于對象實(shí)例分割的Mask R-CNN,它在許多COCO挑戰(zhàn)方面都超過了以前的所有基準(zhǔn)。 該模型有效地檢測圖像中的對象,同時(shí)為每個實(shí)例生成高質(zhì)量的分割MASK。 MASK R-CNN本質(zhì)上是具有3個輸出分支的Faster RCNN(圖19)-第一個計(jì)算邊界框坐標(biāo),第二個計(jì)算關(guān)聯(lián)的類,第三個計(jì)算binary mask以分割對象。 MASK R-CNN損失函數(shù)將邊界框坐標(biāo),預(yù)測類和 segmentation mask的損失合并在一起,并共同訓(xùn)練它們。 圖20顯示了一些樣本圖像上的Mask-RCNN結(jié)果。
Liu等人提出的路徑聚合網(wǎng)絡(luò)(PANet)[66]基于Mask R-CNN和FPN模型(圖21)。 網(wǎng)絡(luò)的特征提取器使用FPN架構(gòu),具有新的增強(qiáng)的自下而上的路徑,從而改善了低層功能的傳播。 第三條路徑的每個階段都將前一階段的特征圖作為輸入,并使用3x3卷積層對其進(jìn)行處理。 使用橫向連接將輸出添加到自頂向下路徑的同一階段特征圖,這些特征圖將饋入下一個階段。 與Mask RCNN中一樣,自適應(yīng)特征池化層的輸出將饋入三個分支。 前兩個使用全連接層來生成邊界框坐標(biāo)和關(guān)聯(lián)對象類別的預(yù)測。,第三部分使用FCN處理RoI以預(yù)測object mask。
Dai等[67]提出了一個多任務(wù)網(wǎng)絡(luò),用于實(shí)例感知的語義分割,它由三個網(wǎng)絡(luò)組成,分別區(qū)分實(shí)例,估計(jì)掩碼estimating masks和對對象進(jìn)行分類。 這些網(wǎng)絡(luò)形成一個級聯(lián)結(jié)構(gòu),旨在共享它們的卷積特征。 Hu等[68]提出了一種新的部分監(jiān)督的訓(xùn)練范例,以及一個新穎的權(quán)重傳遞函數(shù),該訓(xùn)練范例使訓(xùn)練實(shí)例分割模型可以基于大量類別,所有類別都具有框注,但是只有一小部分具有mask annotations。
Chen等通過基于Faster R-CNN的語義和方向特征完善對象檢測,提出了一個實(shí)例分割模 MaskLab(圖22)。 該模型產(chǎn)生三個輸出,框檢測,語義分割和方向預(yù)測。 在Faster-RCNN對象檢測器的基礎(chǔ)上,預(yù)測框提供了對象實(shí)例的精確定位。 在每個感興趣的區(qū)域內(nèi),MaskLab通過組合語義和方向預(yù)測來執(zhí)行前景/背景分割。
另一個有趣的模型是Chen等人提出的Tensormask [70],這是基于密集的滑動窗口實(shí)例分割。 他們將密集實(shí)例分割視為4D張量上的預(yù)測任務(wù),并提出了一個通用框架,該框架使4D張量上的新型算子成為可能。 他們證明張量視圖可以帶來比基線大的收益,并且產(chǎn)生的結(jié)果與Mask R-CNN相當(dāng)。 TensorMask在密集對象分割上取得了可喜的結(jié)果(圖23)。
已經(jīng)有許多基于R-CNN的實(shí)例分割模型被提出,例如那些mask proposal的模型,包括R-FCN [71],DeepMask [72],SharpMask [73],PolarMask [74]和邊界感知實(shí)例分割[75]。 值得注意的是,還有另一個有希望的研究方向,它試圖通過學(xué)習(xí)用于自下而上的分割的分組線索來解決實(shí)例分割問題,例如深度分水嶺變換[76]和通過深度度量學(xué)習(xí)的語義實(shí)例分割[77]。
4.6 Dilated Convolutional Models and DeepLab Family
擴(kuò)張卷積(空洞卷積)為卷積層引入了另一個參數(shù),即擴(kuò)張率。 信號x(i)的擴(kuò)張卷積(圖24)定義為 y i = ∑ k x [ i + r k ] w [ k ] y_i = \sum _{k}x [i + rk] w [k] yi?=∑k?x[i+rk]w[k],其中r是定義內(nèi)核權(quán)重w之間的間距的擴(kuò)張率 。 例如,具有2的膨脹率的3x3核將具有與5 5核相同的大小感受野,而僅使用9個參數(shù),因此在不增加計(jì)算成本的情況下擴(kuò)大了感受野。 空洞卷積在實(shí)時(shí)分割領(lǐng)域中很流行,并且許多最近的出版物報(bào)道了這種技術(shù)的使用。 其中最重要的一些包括DeepLab系列[78], multiscale context aggregation [79], dense upsampling convolution and hybrid dilatedconvolution (DUC-HDC) [80], densely79 connected Atrous Spatial Pyramid Pooling (DenseASPP) [81],and the efficient neural network (ENet) [82]。
DeepLabv1 [38]和DeepLabv2 [78]是Chen等人提出的一些最受歡迎的圖像分割方法。后者具有三個關(guān)鍵功能。首先是使用空洞卷積來解決網(wǎng)絡(luò)中分辨率下降的問題(這是由最大池化和步幅引起的)。其次是多孔空間金字塔池化(ASPP),它以多種采樣率使用過濾器探測傳入的卷積特征層,從而以多種比例捕獲對象以及圖像上下文,從而以多種比例可靠地分割對象。第三是通過結(jié)合深層CNN和概率圖形模型的方法來改進(jìn)對象邊界的定位。 最好的DeepLab(使用ResNet-101作為骨干)在2012年P(guān)ASCAL VOC挑戰(zhàn)賽中達(dá)到79.7%的mIoU分?jǐn)?shù),在PASCAL-Context挑戰(zhàn)賽中達(dá)到45.7%的mIoU分?jǐn)?shù),在Cityscapes挑戰(zhàn)賽中達(dá)到70.4%的mIoU分?jǐn)?shù)。圖25說明了Deeplab模型,該模型類似于[38],主要區(qū)別在于使用了擴(kuò)展卷積和ASPP??。
隨后陳等[12]提出了DeepLabv3,它結(jié)合了空洞卷積的級聯(lián)和并行模塊。 并行卷積模塊在ASPP中分組。 在ASPP中添加了1x1卷積和批處理歸一化(BN)。 所有輸出通過另一個1x1卷積進(jìn)行級聯(lián)和處理,以創(chuàng)建具有每個像素logit的最終輸出。
2018年Chen等[83]發(fā)布了Deeplabv3 +,該版本使用了編碼器-解碼器體系結(jié)構(gòu)(圖26),包括無空間可分卷積,由深度卷積(輸入每個通道的空間卷積)和點(diǎn)向卷積(深度卷積為1x1卷積) 作為輸入)。 他們使用DeepLabv3框架作為編碼器。 最相關(guān)的模型具有經(jīng)過修改的Xception骨架,具有更多層,擴(kuò)展的深度可分離卷積,而不是最大池化和批量歸一化。在COCO和JFT數(shù)據(jù)集上預(yù)訓(xùn)練的最佳DeepLabv3 +在2012年P(guān)ASCAL VOC挑戰(zhàn)中獲得了89.0%的mIoU分?jǐn)?shù)。
4.7 Recurrent Neural Network Based Models
盡管CNN很自然地適合解決計(jì)算機(jī)視覺問題,但它們并不是唯一的可能性。 RNN在建模像素之間的短期/長期依存關(guān)系方面很有用,以改善分割圖的估計(jì)。使用RNN,可以將像素鏈接在一起并進(jìn)行順序處理以建模全局上下文并改善語義分割。 但是,挑戰(zhàn)之一是圖像的自然2D結(jié)構(gòu)。
Visin等[84]提出了一種基于RNN的語義分割模型ReSeg。 該模型主要基于另一項(xiàng)研究ReNet [85],該研究是為圖像分類而開發(fā)的。 每個ReNet層(圖27)由四個RNN組成,它們在兩個方向上水平和垂直掃描圖像,編碼補(bǔ)丁/激活并提供相關(guān)的全局信息。 為了使用ReSeg模型進(jìn)行圖像分割(圖28),ReNet層堆疊在提取通用局部特征的預(yù)訓(xùn)練VGG-16卷積層之上。 然后,在ReNet層之后是上采樣層,以在最終預(yù)測中恢復(fù)原始圖像分辨率。 使用門控循環(huán)單元(GRU)是因?yàn)樗鼈冊趦?nèi)存使用和計(jì)算能力之間提供了良好的平衡。
在另一項(xiàng)工作中,Byeon等 [86]使用長短期記憶(LSTM)網(wǎng)絡(luò)開發(fā)了場景圖像的像素級分割和分類。 他們研究了自然場景圖像的二維(2D)LSTM網(wǎng)絡(luò),同時(shí)考慮了標(biāo)簽的復(fù)雜空間依賴性。 在這項(xiàng)工作中,分類,分割和上下文集成都由2D LSTM網(wǎng)絡(luò)執(zhí)行,從而允許在單個模型中學(xué)習(xí)紋理和空間模型參數(shù)。 [29]中提出的用于圖像分割的2D LSTM網(wǎng)絡(luò)的框圖如圖29所示。
Hu等[89]開發(fā)了一種基于自然語言表達(dá)的語義分割算法,結(jié)合使用CNN編碼圖像和LSTM編碼其自然語言描述。這與圖30不同。圖LSTM模型與傳統(tǒng)的像素級RNN模型之間的比較。從傳統(tǒng)語義分割到一組預(yù)定義的語義類,例如短語“兩個人坐在正確的長凳上”只將正確的長凳上的兩個人分開,沒有人站立或坐在另一個長凳上。為了產(chǎn)生用于語言表達(dá)的逐像素細(xì)分,他們提出了一種端到端可訓(xùn)練的遞歸和卷積模型,該模型共同學(xué)習(xí)處理視覺和語言信息(圖33)。在考慮的模型中,使用遞歸LSTM網(wǎng)絡(luò)將參考表達(dá)編碼為矢量表示,并使用FCN從圖像中提取空間特征圖并輸出目標(biāo)對象的空間響應(yīng)圖。該模型的示例分割結(jié)果(針對查詢“穿著藍(lán)色外套的人”)如圖34所示。
4.8 Attention-Based Models
多年來,人們一直在計(jì)算機(jī)視覺中探索注意力機(jī)制,因此,找到將此類機(jī)制應(yīng)用于語義分割的文章也就不足為奇了。
Chen等 [90]提出了一種注意力機(jī)制,可以學(xué)習(xí)在每個像素位置輕柔地加權(quán)多尺度特征。 他們采用了強(qiáng)大的語義分割模型,并結(jié)合多尺度圖像和注意力模型對其進(jìn)行了訓(xùn)練(圖35)。 注意機(jī)制的性能優(yōu)于平均池化和最大池化,它使模型能夠評估不同位置和比例下特征的重要性。
與其他訓(xùn)練卷積分類器以學(xué)習(xí)標(biāo)記對象的代表性語義特征的工作相反,Huang等人[91]提出了一種使用逆向注意機(jī)制的語義分割方法。其逆向注意網(wǎng)絡(luò)(RAN)架構(gòu)(圖36)也訓(xùn)練模型以捕獲相反的概念(即與目標(biāo)類不相關(guān)的功能)。 RAN是一個三分支網(wǎng)絡(luò),可同時(shí)執(zhí)行直接注意和反向注意學(xué)習(xí)過程。
Li等[92]開發(fā)了一個用于語義分割的金字塔注意網(wǎng)絡(luò)。 該模型利用了全局上下文信息在語義分割中的影響,將注意力機(jī)制和空間金字塔相結(jié)合,以提取精確的密集特征進(jìn)行像素標(biāo)記,而不是使用復(fù)雜的空洞卷積和人工設(shè)計(jì)的解碼器網(wǎng)絡(luò)。
最近傅等人 [93]提出了一種用于場景分割的雙重注意力網(wǎng)絡(luò),它可以基于自關(guān)注機(jī)制捕獲豐富的上下文相關(guān)性。 具體來說,它們在擴(kuò)張的FCN頂部附加了兩種類型的注意模塊,分別針對空間和通道維度的語義相互依賴性進(jìn)行建模。位置注意模塊通過所有位置的特征加權(quán)總和選擇性地聚合每個位置的特征。雙重注意力網(wǎng)絡(luò)的體系結(jié)構(gòu)如圖37所示。
其他各種工作也探索了語義分割的注意力機(jī)制,例如OCNet [94],該機(jī)制提出了受自我注意力機(jī)制啟發(fā)的目標(biāo)內(nèi)容上下文池化,期望最大化注意力(EMANet)[95],跨交叉注意力網(wǎng)絡(luò)(CCNet)[96]。具有經(jīng)常注意的端到端實(shí)例分割[97],用于場景解析的逐點(diǎn)空間注意網(wǎng)絡(luò)[98]和區(qū)分性特征網(wǎng)絡(luò)(DFN)[99],其中包括兩個子網(wǎng)絡(luò):平滑網(wǎng)絡(luò) (包含一個通道注意塊和全局平均池化以選擇更具區(qū)別性的特征)和一個邊界網(wǎng)絡(luò)(以使邊界的雙邊特征可區(qū)分)。
4.9 Generative Models and Adversarial Training
Luc等提出了一種對抗訓(xùn)練的語義分割方法。 他們訓(xùn)練了一個卷積語義分割網(wǎng)絡(luò)(圖38),以及一個對抗網(wǎng)絡(luò),該網(wǎng)絡(luò)將真實(shí)分割圖與由分割網(wǎng)絡(luò)生成的圖區(qū)分開來。 他們表明,對抗訓(xùn)練方法可以提高Stanford Background和PASCAL VOC 2012數(shù)據(jù)集的準(zhǔn)確性。
圖39顯示了對來自斯坦福背景數(shù)據(jù)集的一幅示例圖像進(jìn)行對抗訓(xùn)練所帶來的改進(jìn)。
在另一項(xiàng)工作中,洪等人提出了一個使用對抗網(wǎng)絡(luò)的半監(jiān)督語義分割框架。 他們設(shè)計(jì)了FCN判別器,以考慮空間分辨率,將預(yù)測的概率圖與真實(shí)分割圖分布區(qū)分開。 該模型考慮的損失函數(shù)包含三個術(shù)語:基于分割的真實(shí)交叉熵?fù)p失,判別器網(wǎng)絡(luò)的對抗損失和基于置信度圖的半監(jiān)督損失;以及判別器的輸出。 Hung及其同事的模型架構(gòu)如圖40所示。
薛等[103]提出了一種具有多尺度L1損失的對抗網(wǎng)絡(luò),用于醫(yī)學(xué)圖像分割。 他們使用FCN作為分割器來生成分割標(biāo)簽圖,并提出了一種具有多尺度L1損失函數(shù)的新型對抗性評價(jià)(critic)網(wǎng)絡(luò),以迫使critic and segmentor 學(xué)習(xí)捕獲了兩者之間長距離和短距離空間關(guān)系的全局和局部特征像素。 分割器和注釋器網(wǎng)絡(luò)的框圖如圖41所示。
4.10 CNN Models With Active Contour Models
醫(yī)學(xué)相關(guān)不做介紹
4.11 Other Models
除上述模型外,還有幾種其他流行的用于分割的DL架構(gòu),例如:上下文編碼網(wǎng)絡(luò)(EncNet),它使用基本的特征提取器并將特征映射饋送到上下文編碼模塊[116]。 RefineNet [117]是一個多路徑優(yōu)化網(wǎng)絡(luò),它明確利用降采樣過程中的所有可用信息,以實(shí)現(xiàn)使用遠(yuǎn)程殘差連接的高分辨率預(yù)測。 Seednet [118]引入了具有深度強(qiáng)化學(xué)習(xí)功能的自動種子生成技術(shù),該技術(shù)學(xué)會了解決交互式分割問題的方法。Feedforward-Net [124]將圖像超像素映射到從一系列遞增的嵌套區(qū)域中提取的豐富特征表示中 擴(kuò)展并利用圖像和標(biāo)簽空間中的統(tǒng)計(jì)結(jié)構(gòu),而無需建立明確的結(jié)構(gòu)化預(yù)測機(jī)制。
全景分割[137]也是另一個有趣的(以及較新的)分割問題,而且普及程度不斷提高,并且在這個方向上已經(jīng)有一些有趣的工作,包括全景特征金字塔網(wǎng)絡(luò)[138],用于全景分割的注意力指導(dǎo)網(wǎng)絡(luò)[139], 和無縫場景分割[140]。
Figure 42 illustrates the timeline of popular DL-based works for semantic segmentation, as well as instance segmentation since 2014. Given the large number of works developed in the last few years, we only show some of the most representative ones.
該章總結(jié):主要介紹了一些基于不同網(wǎng)絡(luò)架構(gòu)的典型分割算法,粗略地了解他們的工作原理,可以看到有很多值得思考研究的地方,后面我們再繼續(xù)介紹圖像分割領(lǐng)域中的常用數(shù)據(jù)集。
未完待續(xù)…
總結(jié)
以上是生活随笔為你收集整理的论文阅读—图像分割方法综述(二)(arXiv:[cs:cv]20200410)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 据说是国内“最黑”的十大风景名胜区
- 下一篇: 模具设计的四个步骤总结