【CV】ECCV2020图像分割开源论文合集
編輯丨極市平臺
極市導(dǎo)讀
?本文整理了ECCV2020目前開源的分割方向的全部論文,涵蓋實例分割、語義分割、點云分割、目標跟蹤與分割以及視頻目標分割等多個方向,并對每一篇論文進行了簡要介紹,文末附論文打包下載。
實例分割
【1】Conditional Convolutions for Instance Segmentation(Oral)
作者|Zhi Tian, Chunhua Shen, Hao Chen
機構(gòu)|阿德萊德大學(xué)
代碼|https://git.io/AdelaiDet
介紹:本文提出了一個簡單而有效的實例分割框架CondInst。效果最好的實例分割方法(例如Mask R-CNN)依靠ROI操作(比如ROIPool或ROIAlign)來獲取最終的實例掩碼。相反,本文從新的角度解決實例分割問題。采用基于實例的動態(tài)實例感知網(wǎng)絡(luò)替代以ROI作為固定權(quán)重網(wǎng)絡(luò)的輸入。CondInst具有兩個優(yōu)點:(1)通過全卷積網(wǎng)絡(luò)進行實例分割,無需進行ROI裁剪和特征對齊;(2)由于動態(tài)生成條件卷積的能力大大提高,因此mask head可以非常緊湊(例如3個卷積層,每個僅具有8個通道),從而獲得明顯更快inference。該方法在準確性和inference速度上都實現(xiàn)更高的性能。
【2】Fashionpedia: Ontology, Segmentation, and an Attribute Localization Dataset
作者|Menglin Jia, Mengyun Shi, Mikhail Sirotenko, Yin Cui, Claire Cardie , Bharath Hariharan, Hartwig Adam, Serge Belongie
機構(gòu)|康奈爾大學(xué);谷歌
代碼|https://fashionpedia.github.io/home/
本文專注于具有屬性本地化的實例分割任務(wù),統(tǒng)一了實例分割和細粒度屬性的可視分類。建議的任務(wù)既需要定位對象,又需要描述其屬性。Fashionpedia由兩部分組成:(1)由時尚專家建立的本體,包含27個主要服裝類別,19個服裝部件以及294個細粒度屬性及其關(guān)系;(2)由日常和名人事件時尚圖片組成的數(shù)據(jù)集細分蒙版及其相關(guān)的細粒度屬性。本文提出了一種新穎的Attribute-Mask R-CNN模型來聯(lián)合執(zhí)行實例分割和局部屬性識別,并為任務(wù)提供了一種新穎的評估指標。
【3】SipMask: Spatial Information Preservation for Fast Image and Video Instance Segmentation
作者|Jiale Cao, Rao Muhammad Anwer, Hisham Cholakkal, Fahad Shahbaz Khan, Yanwei Pang, Ling Shao
機構(gòu)|天津大學(xué);Mohamed bin Zayed University of Artificial Intelligence;Inception Institute of Artificial Intelligence
代碼|https://github.com/JialeCao001/SipMask
介紹:本文提出了一種快速單階段實例分割方法SipMask,通過將實例的蒙版預(yù)測與檢測到的邊界框的不同子區(qū)域分開來保留實例特定的空間信息。提出了一個新穎的輕量級空間保存(SP)模塊,為邊界框內(nèi)的每個子區(qū)域生成單獨的一組空間系數(shù),從而改善了蒙版預(yù)測。它還可以精確描繪空間上相鄰的實例。此外,我們引入了蒙版對齊權(quán)重損失和特征對齊方案,以更好地將蒙版預(yù)測與對象檢測相關(guān)聯(lián)。在COCO上,SipMask優(yōu)于現(xiàn)有的單階段方法。與最先進的單級TensorMask相比,SipMask的絕對增益為1.0%(mask AP),同時提供了四倍的加速比。就實時功能而言,在類似的設(shè)置下,SipMask的絕對增益要優(yōu)于YOLACT,其絕對增益為3.0%(mask AP),而在Titan Xp上以可比的速度運行。將SipMask用于實時視頻實例分割,在YouTube-VIS數(shù)據(jù)集上取得了不錯的結(jié)果。
【4】Commonality-Parsing Network across Shape and Appearance for Partially Supervised Instance Segmentation
作者|Qi Fan, Lei Ke, Wenjie Pei, Chi-Keung Tang, Yu-Wing Tai
機構(gòu)|香港科技大學(xué);哈爾濱工業(yè)大學(xué)深圳研究院
代碼|https://github.com/fanq15/CPMask
介紹:部分監(jiān)督實例分割旨在對有限的帶掩碼注釋的數(shù)據(jù)類別執(zhí)行學(xué)習,從而消除昂貴且詳盡的掩碼注釋。現(xiàn)有方法通常采用學(xué)習從檢測到分割的傳遞函數(shù),或?qū)W習用于對新穎類別進行分割的聚類形狀先驗的方式。本文則建議學(xué)習潛在的與類無關(guān)的共性,這些共性可以從帶掩碼的類別擴展到新穎的類別。具體來說,本文分析兩種類型的共性:1)通過對實例邊界預(yù)測執(zhí)行監(jiān)督學(xué)習而獲得的形狀共性;2)通過對特征圖像素之間的成對親和力建模來捕獲外觀共同性,以優(yōu)化實例與背景之間的可分離性。結(jié)合形狀和外觀的共性,本文模型在部分監(jiān)督設(shè)置和小樣本設(shè)置方面均明顯優(yōu)于最新方法。
【5】The Devil is in Classification: A Simple Framework for Long-tail Instance Segmentation
作者|Tao Wang, Yu Li, Bingyi Kang, Junnan Li, Junhao Liew, Sheng Tang, Steven Hoi, Jiashi Feng
機構(gòu)|新加坡國立大學(xué);中國科學(xué)院計算技術(shù)研究所
代碼|https://github.com/twangnh/SimCal
介紹:大多數(shù)現(xiàn)有的對象實例檢測和細分模型只能在相當均衡的基準上很好地工作,而在長尾的現(xiàn)實數(shù)據(jù)集中出現(xiàn)性能下降。本文系統(tǒng)地研究了最新的two-stage實例分割模型Mask R-CNN在長尾LVIS數(shù)據(jù)集上的性能下降,并揭示主要原因:object proposals的分類不正確。因此本文考慮了各種用于改善長尾分類性能的技術(shù),可以增強實例分割結(jié)果。本文提出了一個簡單的校準框架,以采用雙層類平衡采樣方法更有效地減輕分類頭偏差,極大地提高了在LVIS數(shù)據(jù)集和文章采樣的COCO-LT數(shù)據(jù)集上尾類的實例分割性能。
【6】Supervised Edge Attention Network for Accurate Image Instance Segmentation
作者|Xier Chen, Yanchao Lian, Licheng Jiao, Haoran Wang, YanJie Gao, Shi Lingling
機構(gòu)|西安電子科技大學(xué)
代碼|https://github.com//IPIU-detection/SEANet
介紹:有效地保持蒙版邊界完整對實例分割很重要。在此任務(wù)中,許多工作片段實例都是基于框頭的邊界框,這意味著檢測的質(zhì)量也會影響蒙版的完整性。為了解決這個問題,本文提出了一個完全卷積的box head和一個在mask head中的監(jiān)督邊緣注意模塊。box head包含一個新的IoU預(yù)測分支。它學(xué)習對象特征和檢測到的邊界框之間的關(guān)聯(lián),以提供更準確的邊界框進行分割。邊緣關(guān)注模塊利用關(guān)注機制來突出對象并抑制背景噪聲,并設(shè)計了一個有監(jiān)督的分支來引導(dǎo)網(wǎng)絡(luò)精確地關(guān)注實例的邊緣。
語義分割
【7】Unsupervised Domain Adaptation for Semantic Segmentation of NIR Images through Generative Latent Search
作者|Prashant Pandey, Aayush Kumar Tyagi, Sameer Ambekar, Prathosh AP
機構(gòu)|印度理工學(xué)院
代碼|https://github.com/ambekarsameer96/GLSS
介紹:本文將皮膚分割問題歸結(jié)為與目標無關(guān)的無監(jiān)督域自適應(yīng)(UDA)問題,使用來自可見范圍紅色通道的數(shù)據(jù)來開發(fā)NIR圖像上的皮膚分割算法。提出一種與目標無關(guān)的分割方法,在源域中搜索目標圖像的“最近克隆”并將其用作僅在源域上訓(xùn)練的分割網(wǎng)絡(luò)中的代理。本文證明了“最近克隆”的存在,并提出了一種基于變分推理的深度生成模型潛在空間上的優(yōu)化算法。通過NIR域中兩個新創(chuàng)建的皮膚分割數(shù)據(jù)集上的最新UDA分割方法,證明了NIR皮膚分割方法的有效性。
【8】Classes Matter: A Fine-grained Adversarial Approach to Cross-domain Semantic Segmentation
作者|Haoran Wang, Tong Shen, Wei Zhang, Ling-Yu Duan, Tao Mei
機構(gòu)|ETH;京東;北京大學(xué)
代碼|https://github.com/JDAI-CV/FADA
介紹:盡管在監(jiān)督語義分割方面取得了很大進展,但在野外部署模型時通常會觀察到性能大幅下降。域自適應(yīng)方法通過對齊源域和目標域來解決此問題。但大多數(shù)現(xiàn)有方法忽略了目標域中底層的類級別數(shù)據(jù)結(jié)構(gòu)。為了充分利用源域中的監(jiān)督,本文提出了一種細粒度的對抗學(xué)習策略,用于類級別的特征對齊,同時保留了跨域語義的內(nèi)部結(jié)構(gòu)。本文所提出的方法在三個經(jīng)典領(lǐng)域適應(yīng)任務(wù)上進行了有效性評估,即GTA5 ?Cityscapes, SYNTHIA?Cityscapes, Cityscapes?Cross-City。性能的大幅提高表明該方法優(yōu)于其他基于全局特征對齊和基于類對齊的對應(yīng)方法。
【9】Improving Semantic Segmentation via Decoupled Body and Edge Supervision
作者|Xiangtai Li, Xia Li, Li Zhang, Guangliang Cheng, Jianping Shi, Zhouchen Lin, Shaohua Tan, Yunhai Tong
機構(gòu)|北京大學(xué);之江實驗室;哈佛大學(xué);商湯科技
代碼|https://github.com/lxtGH/DecoupleSegNets
介紹:本文提出了一種語義分割的新范式。通過學(xué)習流場使圖像特征變形,以使對象部分更加一致。通過顯式采樣不同部分(身體或邊緣)像素,在去耦監(jiān)督下進一步優(yōu)化了生成的身體特征和殘留邊緣特征。我們表明,具有各種基準或骨干網(wǎng)絡(luò)的建議框架可獲得更好的對象內(nèi)部一致性和對象邊界。在包括Cityscapes,CamVid,KIITI和BDD在內(nèi)的四個主要道路場景語義分割基準上的大量實驗表明,本文提出的方法建立了新的技術(shù)水平,同時保持了較高的推理效率。
【10】Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation
作者|Xiaokang Chen, Kwan-Yee Lin, Jingbo Wang, Wayne Wu, Chen Qian, Hongsheng Li, Gang Zeng
機構(gòu)|北京大學(xué);香港中文大學(xué);商湯科技
代碼|https://charlescxk.github.io/
介紹:深度信息是RGB-D圖像語義分割中的有用提示,它可以為RGB表示提供幾何上的對應(yīng)。大多數(shù)現(xiàn)有工作僅假設(shè)深度測量準確且與RGB像素良好對齊,并將該問題建模為交叉模式特征融合以獲得更好的特征表示以實現(xiàn)更準確的分割。但是,這可能不會導(dǎo)致令人滿意的結(jié)果,因為實際的深度數(shù)據(jù)通常比較嘈雜,這可能會隨著網(wǎng)絡(luò)的深入而降低準確性。本文提出了一個統(tǒng)一而有效的跨模態(tài)引導(dǎo)編碼器,不僅可以有效地重新校準RGB特征響應(yīng),還可以通過多個階段提取準確的深度信息,并交替匯總兩個重新校準的表示。本文提出的體系結(jié)構(gòu)的關(guān)鍵是新穎的“分離與聚合門控”操作,該操作在交叉模態(tài)聚合之前共同過濾和重新校準兩種表示形式。同時,一方面引入了雙向多步傳播策略,以幫助在兩種模態(tài)之間傳播和融合信息,另一方面,在長期傳播過程中保持它們的特異性。此外,本文提出的編碼器可以輕松地注入到以前的編碼器-解碼器結(jié)構(gòu)中,以提高其在RGB-D語義分割上的性能。
點云分割
【11】SqueezeSegV3: Spatially-Adaptive Convolution for Efficient Point-Cloud Segmentation
作者|Chenfeng Xu, Bichen Wu, Zining Wang, Wei Zhan, Peter Vajda, Kurt Keutzer, Masayoshi Tomizuka
機構(gòu)|加州大學(xué)伯克利分校;Facebook
代碼|https://github.com/chenfengxu714/SqueezeSegV3
介紹:LiDAR點云分割是許多應(yīng)用程序中的重要問題。對于大規(guī)模點云分割,常見方法是投影3D點云以獲得2D LiDAR圖像并使用卷積對其進行處理。盡管常規(guī)RGB和LiDAR圖像之間存在相似之處,本文首次發(fā)現(xiàn)LiDAR圖像的特征分布在不同圖像位置會急劇變化。由于卷積濾波器會拾取僅在圖像中特定區(qū)域有效的局部特征,因此使用標準卷積來處理此類LiDAR圖像存在問題,將導(dǎo)致網(wǎng)絡(luò)的容量未得到充分利用,分割性能下降。為了解決這一問題,本文采用空間自適應(yīng)卷積(SAC)根據(jù)輸入圖像對不同位置采用不同的濾波器。并使用SAC構(gòu)建了用于LiDAR點云分割的SqueezeSegV3,在SemanticKITTI基準上以至少2.0%的mIoU優(yōu)于所有先前發(fā)布的方法。
目標跟蹤與分割
【12】Segment as Points for Efficient Online Multi-Object Tracking and Segmentation(Oral)
作者|Zhenbo Xu, Wei Zhang, Xiao Tan, Wei Yang, Huan Huang, Shilei Wen, Errui Ding, Liusheng Huang
機構(gòu)|中國科學(xué)技術(shù)大學(xué);百度
代碼|https://github.com/detectRecog/PointTrack
簡介:當前的多目標跟蹤和分割方法遵循“tracking-by-detection”范例,并采用卷積進行特征提取。受固有感受野影響,基于卷積的特征提取不可避免地將前景特征和背景特征混合在一起,從而在后續(xù)實例關(guān)聯(lián)中產(chǎn)生歧義。本文提出了一種有效的方法:將緊湊的圖像表示轉(zhuǎn)換為無序的2D點云表示,從而基于分割學(xué)習實例嵌入。此外,多種信息數(shù)據(jù)模態(tài)被轉(zhuǎn)換為點狀表示,以豐富點狀特征。PointTrack以接近實時的速度(22 FPS)大大超越了所有最新技術(shù),包括3D跟蹤(MOTSA高5.4%,MOTSFusion快18倍) )。與此同時,本文針對目前MOTS數(shù)據(jù)集缺少擁擠場景的問題,構(gòu)建了一個具有更高實例密度的MOTS數(shù)據(jù)集:APOLLO MOTS。
視頻目標分割
【13】Learning What to Learn for Video Object Segmentation
作者|Goutam Bhat, Felix Järemo Lawin, Martin Danelljan, Andreas Robinson, Michael Felsberg, Luc Van Gool, Radu Timofte
機構(gòu)|ETH;Linko ?ping University
代碼|https://github.com/visionml/pytracking
介紹:視頻對象分割(VOS)是一個極富挑戰(zhàn)性的問題,因為目標對象僅在推理過程中由第一幀參考掩碼定義。如何捕獲和利用這些有限的信息來準確地分割目標的問題仍然是一個基礎(chǔ)研究問題。為了解決這個問題,本文引入端到端可訓(xùn)練的VOS架構(gòu),集成了可區(qū)分小樣本學(xué)習器。旨在通過最小化第一幀中的分割誤差來預(yù)測目標的強大參數(shù)模型。該方法在大規(guī)模YouTube-VOS 2018數(shù)據(jù)集上獲得了81.5的總得分,相對過去的最佳結(jié)果提高了2.6%。
【14】Collaborative Video Object Segmentation by Foreground-Background Integration
作者|Zongxin Yang, Yunchao Wei, Yi Yang
機構(gòu)|悉尼科技大學(xué);百度
代碼|https://github.com/z-x-yang/CFBI
介紹:本文研究了嵌入學(xué)習的原理,以解決具有挑戰(zhàn)性的半監(jiān)督視頻對象分割。與僅使用前景對象的像素探索嵌入學(xué)習的以前的做法不同,本文認為應(yīng)該同等對待背景,因此建議使用前景背景集成(CFBI)方法進行協(xié)作視頻對象分割。CFBI隱式強加了從目標前景對象及其對應(yīng)的背景中嵌入的特征以進行對比,從而相應(yīng)地提高了分割結(jié)果。通過前景和背景的嵌入,CFBI可以在像素和實例水平上執(zhí)行參考序列與預(yù)測序列之間的匹配過程,從而使CFBI能夠適應(yīng)各種對象比例。在DAVIS 2016,DAVIS 2017和YouTube-VOS進行實驗,CFBI的性能(J&F)分別達到89.4%,81.9%和81.4%,優(yōu)于其他所有最新技術(shù)。
【15】URVOS: Unified Referring Video Object Segmentation Network with a Large-Scale Benchmark
作者|Seonguk Seo, Joon-Young Lee, Bohyung Han
機構(gòu)|首爾大學(xué);Adobe
代碼|https://github.com/skynbe/Refer-Youtube-VOS
介紹:本文提出了一個統(tǒng)一的參照視頻目標分割網(wǎng)絡(luò)(URVOS)。URVOS將視頻和引用表達式作為輸入,并估計整個視頻幀中給定語言表達式引用的對象蒙版。通過使用單個深層神經(jīng)網(wǎng)絡(luò)以及兩個注意模型的適當組合,共同執(zhí)行基于語言的對象分割和掩碼傳播,解決了具有挑戰(zhàn)性的問題。此外,本文構(gòu)建了第一個大規(guī)模的參考視頻目標分割數(shù)據(jù)集Refer-Youtube-VOS。
打包下載
在作者公眾號后臺回復(fù)ECCV圖像分割,即可獲取上述論文打包下載鏈接。往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機器學(xué)習及深度學(xué)習筆記等資料打印機器學(xué)習在線手冊深度學(xué)習筆記專輯《統(tǒng)計學(xué)習方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機器學(xué)習的數(shù)學(xué)基礎(chǔ)專輯獲取一折本站知識星球優(yōu)惠券,復(fù)制鏈接直接打開:https://t.zsxq.com/662nyZF本站qq群1003271085。加入微信群請掃碼進群(如果是博士或者準備讀博士請說明):總結(jié)
以上是生活随笔為你收集整理的【CV】ECCV2020图像分割开源论文合集的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Python基础】什么是Python的
- 下一篇: ⾼维特征的哈希技巧总结