ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记
目錄
- 簡介
- 動機
- 貢獻
- 方法
- 實驗
簡介
本文出自北航劉偲老師colab,使用語言結構引導上下文建模,用于Referring Image Segmentation。
下載鏈接
動機
解決Referring Image Segmentation的一個general想法是:首先,分別提取視覺、語言特征,然后基于多模態特征進行分割。但由于噪聲的存在,很難從背景中分割出referent。這時,可以考慮使用與句子相關的、有效的多模態context來突出referent的特征,抑制背景特征。但在已有方法中,使用直接的concatenation或循環微調,缺乏顯式的建模多模態上下文。有一些工作中,使用跨模態self-attention或動態濾波建模多模態上下文,但這些上下文要么是不充足的,要么是冗余的。
貢獻
- 本文提出使用“gather-propagate-distribute”機制建模視覺語言中跨模態的上下文信息;
- 本文提出了Linguistic Structure guided Context Modeling (LSCM)模塊,用于實現“gather-propagate-distribute”機制;
- 在四個benchmarks上進行了實驗,均超過了SOTA,UNC (+1:58%)、UNC+(+3:09%)、G-Ref (+1:65%) 、ReferIt (+2:44%)
方法
本文方法的整體架構如下圖所示,共有三個步驟:①使用CNN和LSTM分別提取視覺、語言特征,并將二者融合,獲得多模態特征;②基于得到的多模態特征,使用LSCM模塊(本文重點)突出referent的特征。③將得到的multi-level特征融合,預測mask。
①和③沒有太多需要介紹的,主要說一下文中的步驟②,其處理過程如下圖所示。Gather,基于attention map得到每個node的特征,此時,每個node中只包含它自己的上下文信息;Propagate,最初時,得到的graph是全連接的,作者使用Dependency Parsing Tree解析出文本中結點的對應關系,基于得到的Tree壓制graph中的一些邊,就得到的DPT-WG,在DPT-WG上做一次圖卷積(后文中有實驗,表明做一次圖卷積的結果最優),此時,每個node均包含了sentence的上下文;Distribute,將結點特征再映射到特征圖上,高亮referent的特征。
實驗
在四個數據集上的實驗結果:
消融實驗:
圖卷積層數實驗:
一些可視化的實驗結果:
對attention map的可視化:
總結
以上是生活随笔為你收集整理的ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ECCV 2020 《Propagati
- 下一篇: ICCV 2019《Zero-Shot