CVPR 2021 | 双图层实例分割,大幅提升遮挡处理性能
”
雙圖層實(shí)例分割
物體的互相遮擋在日常生活中普遍存在,嚴(yán)重的遮擋易帶來易混淆的遮擋邊界及非連續(xù)自然的物體形狀,從而導(dǎo)致當(dāng)前已有的檢測(cè)及分割等的算法性能大幅下降。本文通過將圖像建模為兩個(gè)重疊圖層,為網(wǎng)絡(luò)引入物體間的遮擋與被遮擋關(guān)系,從而提出了一個(gè)輕量級(jí)的能有效處理遮擋的實(shí)例分割算法。
”
論文地址| https://arxiv.org/pdf/2103.12340.pdf
論文代碼|https://github.com/lkeab/BCNet
01
摘要
由于物體的真實(shí)輪廓和遮擋邊界之間通常沒有區(qū)別,對(duì)高度重疊的對(duì)象進(jìn)行分割是非常具有挑戰(zhàn)性的。與之前的自頂向下的實(shí)例分割方法不同,本文提出遮擋感知下的雙圖層實(shí)例分割網(wǎng)絡(luò)BCNet,將圖像中的感興趣區(qū)域(Region of Interest,RoI)建模為兩個(gè)重疊圖層,其中頂部圖層檢測(cè)遮擋對(duì)象,而底圖層推理被部分遮擋的目標(biāo)物體。雙圖層結(jié)構(gòu)的顯式建模自然地將遮擋和被遮擋物體的邊界解耦,并在Mask預(yù)測(cè)的同時(shí)考慮遮擋關(guān)系的相互影響。作者在具有不同主干和網(wǎng)絡(luò)層選擇的One-stage和Two-stage目標(biāo)檢測(cè)器上驗(yàn)證了雙層解耦的效果,顯著改善了現(xiàn)有圖像實(shí)例分割模型在處理復(fù)雜遮擋物體的表現(xiàn),并在COCO和KINS數(shù)據(jù)集上均取得總體性能的大幅提升。
02
背景
實(shí)例分割(Instance Segmentation)是圖像及視頻場(chǎng)景理解的基礎(chǔ)任務(wù),該任務(wù)將物體檢測(cè)與語(yǔ)義分割有機(jī)結(jié)合,不僅需要預(yù)測(cè)出輸入圖像的每一個(gè)像素點(diǎn)是否屬于物體,還需將不同的物體所包含的像素點(diǎn)區(qū)分開。目前,實(shí)例分割技術(shù)已經(jīng)大規(guī)模地應(yīng)用在短視頻編輯、視頻會(huì)議、醫(yī)學(xué)影像、自動(dòng)駕駛等領(lǐng)域中, 下圖展示了在自動(dòng)駕駛場(chǎng)景下其對(duì)周邊車輛的位置感知:
自動(dòng)駕駛 - 車輛識(shí)別與感知
03
問題
以Mask R-CNN為代表的實(shí)例分割方法通常遵循先檢測(cè)再分割(Detect-then-segment)的范例,即先獲取感興趣目標(biāo)檢測(cè)框,然后對(duì)區(qū)域內(nèi)的像素進(jìn)行Mask預(yù)測(cè),在COCO數(shù)據(jù)集取得了領(lǐng)先性能并在工業(yè)界得到廣泛應(yīng)用。我們注意到大多數(shù)后續(xù)改進(jìn)算法如PANet、HTC、BlendMask、CenterMask等均著重于設(shè)計(jì)更好的網(wǎng)絡(luò)骨干(Backbone)、高低層特征的融合機(jī)制或級(jí)聯(lián)結(jié)構(gòu)(Cascade Structure),而忽視了掩膜預(yù)測(cè)分支(Mask Regression Head)的作用。同時(shí),如圖1所示的重疊人群,大面積的實(shí)例分割錯(cuò)誤都是由于同一感興趣區(qū)域(RoI)中包含的重疊物體混淆了不同物體的真實(shí)輪廓,特別是當(dāng)遮擋和被遮擋目標(biāo)都屬于相同類別或紋理顏色相似。
圖1 高度遮擋下的實(shí)例分割結(jié)果對(duì)比
04
成果
近日,香港科技大學(xué)聯(lián)合快手對(duì)圖像實(shí)例分割當(dāng)下性能瓶頸進(jìn)行了深入剖析,該研究通過將圖像中感興趣區(qū)域(RoI)建模為兩個(gè)重疊圖層(如圖2示),并提出遮擋感知下的雙圖層實(shí)例分割網(wǎng)絡(luò)BCNet,頂層GCN層檢測(cè)遮擋對(duì)象,底層GCN層推理被部分遮擋的目標(biāo)物體,通過顯式建模自然地將遮擋和被遮擋物體的邊界解耦,并在mask預(yù)測(cè)的同時(shí)考慮遮擋關(guān)系的相互影響,顯著改善了現(xiàn)有實(shí)例分割模型在處理復(fù)雜遮擋物體時(shí)的表現(xiàn),在COCO和KINS數(shù)據(jù)集上均取得領(lǐng)先性能。
圖2 遮擋物和被遮擋物的雙圖層分解示意簡(jiǎn)圖
05
意義
物體互相遮擋在日常生活中普遍存在,嚴(yán)重的遮擋會(huì)帶來易混淆的遮擋邊界及非連續(xù)自然的物體形狀,從而導(dǎo)致當(dāng)前已有的檢測(cè)及分割等的算法的性能大幅下降。該研究系統(tǒng)提出了一個(gè)輕量級(jí)且能有效處理遮擋的實(shí)例分割算法,在工業(yè)界也具有極大意義。隨著短視頻作為主要信息傳播媒介不斷滲透進(jìn)日常生活,在實(shí)際的物體分割應(yīng)用場(chǎng)景中,分割的準(zhǔn)確性直接影響著用戶的使用體驗(yàn)和產(chǎn)品觀感。因此,如何將實(shí)例分割技術(shù)應(yīng)用在復(fù)雜的日常應(yīng)用場(chǎng)景并保持高精度,此項(xiàng)研究給出了一個(gè)合理、有效的解決方案。
BCNet的結(jié)構(gòu)框架
整個(gè)分割系統(tǒng)分為兩個(gè)部分,物體檢測(cè)部分和物體分割部分,算法流程如下圖:
圖3 BCNet的網(wǎng)絡(luò)結(jié)構(gòu)
?輸入單張圖像,使用基于Faster R-CNN或者FCOS的物體檢測(cè)算法預(yù)測(cè)感興趣目標(biāo)區(qū)域(RoI)候選框坐標(biāo)(x,y,w,h),采用Resnet-50/101及特征金字塔作為基礎(chǔ)網(wǎng)絡(luò)(backbone)獲取整張輸入圖片的特征。
使用RoI Align算法根據(jù)物體檢測(cè)框位置,在整張圖片特征圖內(nèi)準(zhǔn)確摳取感興趣目標(biāo)區(qū)域的特征子圖,并將其作為雙圖卷積神經(jīng)網(wǎng)絡(luò)的輸入用于最終的物體分割。
?實(shí)例分割網(wǎng)絡(luò)BCNet由級(jí)聯(lián)狀的雙圖層神經(jīng)網(wǎng)絡(luò)組成:
第一個(gè)圖層對(duì)感興趣目標(biāo)區(qū)域內(nèi)遮擋物體(Occluder)的形狀和外觀進(jìn)行顯式建模,該層圖卷積網(wǎng)絡(luò)包含四層,即卷積層(卷積核大小3x3)、圖卷積層(Non-local Layer)以及末尾的兩個(gè)卷積(卷積核大小3x3)。第一個(gè)圖卷積網(wǎng)絡(luò)輸入感興趣目標(biāo)區(qū)域特征,輸出感興趣目標(biāo)框中遮擋物體的邊界和掩膜。
第二個(gè)圖層結(jié)合第一個(gè)圖卷積網(wǎng)絡(luò)(用于對(duì)遮擋物體建模)已經(jīng)提取的遮擋物體信息(包括遮擋物的Boundary和Mask),具體做法是將步驟2中得到的感興趣目標(biāo)區(qū)域特征與經(jīng)過第一個(gè)圖卷積網(wǎng)絡(luò)中最后一層卷積后的特征3a相加,得到新的特征,并將其作為第二個(gè)圖卷積網(wǎng)絡(luò)(用于被遮擋物分割)的輸入。第二個(gè)圖卷積網(wǎng)絡(luò)與第一個(gè)圖卷積網(wǎng)絡(luò)結(jié)構(gòu)相同,構(gòu)成級(jí)聯(lián)網(wǎng)絡(luò)關(guān)系。該操作將遮擋與被遮擋關(guān)系同時(shí)考慮進(jìn)來,能有效地區(qū)分遮擋物與被遮擋物的相鄰物體邊界,最終輸出目標(biāo)區(qū)域被遮擋目標(biāo)物體(Occludee)的分割結(jié)果。
為了減少模型的參數(shù)量,我們使用非局部算子(Non-local Operator)操作進(jìn)行圖卷積層的實(shí)現(xiàn),具體實(shí)現(xiàn)位于結(jié)構(gòu)圖左上位置,包含三個(gè)卷積核大小為1x1的卷積層以及Softmax算子,其將圖像空間中像素點(diǎn)根據(jù)對(duì)應(yīng)特征向量的相似度有效關(guān)聯(lián)起來,實(shí)現(xiàn)輸入目標(biāo)區(qū)域特征的重新聚合,能較好解決同一個(gè)物體的像素點(diǎn)在空間上被遮擋截?cái)鄬?dǎo)致不連續(xù)的問題。
BCNet與其他經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比
我們的提出的復(fù)雜遮擋下的圖像分割算法,基于已有的雙階段分割模型,將傳統(tǒng)的單個(gè)的全卷積(Fully Convolution)掩膜預(yù)測(cè)分支網(wǎng)絡(luò)替換成由雙圖層級(jí)聯(lián)構(gòu)成的圖神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network)模型,在感興趣目標(biāo)區(qū)域(RoI)中,前圖層建模輸出遮擋物體(Occluder)的位置和形狀,后圖層在前圖層基礎(chǔ)上最終輸出相應(yīng)的被遮擋物體(Occludee)的Mask,從而讓實(shí)例分割算法在遮擋情況下仍然能夠保持高運(yùn)行速度和服務(wù)器端的高速度。如下是BCNet與其它經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)對(duì)比圖:
圖4 分割網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)對(duì)比
實(shí)驗(yàn)和對(duì)比
作者在三個(gè)數(shù)據(jù)集包括COCO、COCOA以及KINS上對(duì)算法進(jìn)行了驗(yàn)證,大量的定量實(shí)驗(yàn)結(jié)果(表1和表2,包含Modal Segmentation和Amodal Segmentation)表明BCNet在不過度增加網(wǎng)絡(luò)參數(shù)和預(yù)測(cè)耗時(shí)的基礎(chǔ)上,結(jié)合現(xiàn)有的One-stage和Two-stage物體檢測(cè)器上均能取得較大的性能提升,優(yōu)于CenterMask、BlendMask以及多階段Cascade的HTC等現(xiàn)有算法,尤其是對(duì)于存在遮擋的物體。同時(shí),表3證明雙圖層結(jié)構(gòu)在兩個(gè)完全的全卷積網(wǎng)絡(luò)(pure FCN)圖層中依然有效。
表1 在COCO-test-dev上的對(duì)比結(jié)果,
BCNet性能大幅優(yōu)于BlendMask、CenterMask等網(wǎng)絡(luò)
表2 在COCO-Val、COCOA和KINS數(shù)據(jù)集上的對(duì)比結(jié)果
表3 對(duì)雙圖層結(jié)構(gòu)(bilayer structure)的有效性驗(yàn)證
另外,作者也提供了不同數(shù)據(jù)集下的可視化對(duì)比結(jié)果。對(duì)于COCO數(shù)據(jù)集,在圖5和圖6中可以看到即使在復(fù)雜的遮擋情況下,BCNet也能給出較為魯棒的預(yù)測(cè)結(jié)果,而且通過分別可視化前圖層和后圖層對(duì)遮擋物和被遮擋物的Boundary和Mask的建模結(jié)果,使得BCNet的預(yù)測(cè)較以往算法具有更強(qiáng)的可解釋性。圖7和圖8提供了對(duì)于Amodal Segmentation下的KINS和COCOA數(shù)據(jù)集的實(shí)例分割效果對(duì)比。
圖5 基于FCOS檢測(cè)器,COCO上CenterMask(第一行)和BCNet(第二行)的可視化結(jié)果對(duì)比。最下面一行顯示了由兩個(gè)GCN圖層分別預(yù)測(cè)的遮擋物和被遮擋物的輪廓以及掩膜,從而使得BCNet的最終分割結(jié)果比以前的方法更具可解釋性。
圖6基于Faster R-CNN檢測(cè)器,COCO上Mask Scoring R-CNN(第一行)和BCNet(第二行)的可視化結(jié)果對(duì)比
圖7 KINS數(shù)據(jù)集上,ASN(第一行)和BCNet(第二行)的可視化結(jié)果(amodal)對(duì)比
圖8 COCOA(左)及KINS(右)上的更多結(jié)果(amodal)對(duì)比
更多BCNet的實(shí)現(xiàn)和實(shí)驗(yàn)細(xì)節(jié)可參考論文和開源代碼,圖5到圖8可視化部分基于的對(duì)比算法來源如下:
[1] Lee, Youngwan, and Jongyoul Park. "Centermask: Real-time anchor-free instance segmentation."?In CVPR, 2020.
[2] Huang Z, Huang L, Gong Y, et al. Mask scoring r-cnn. In CVPR, 2019.
[3] Qi L, Jiang L, Liu S, et al. Amodal instance segmentation with kins dataset. In CVPR, 2019.
[4] Follmann, Patrick, et al. "Learning to see the invisible: End-to-end trainable amodal instance segmentation." In WACV, 2019.
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的CVPR 2021 | 双图层实例分割,大幅提升遮挡处理性能的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: u盘读写次数怎么查看 查看U盘读写次数方
- 下一篇: win10固态硬盘卡怎么办 解决win1