CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记
目錄
- 簡介
- 動機
- 貢獻
- 方法
- 實驗
簡介
本文是一篇poster,作者來自馬薩諸塞大學阿姆赫斯特分校和Adobe研究院。
明確一下本文的task:在圖片中分割出給定的短語。
下載鏈接
動機
現有的數據集缺乏在實際應用中出現的概念的規模和多樣性(lack the scale and diversity of concepts that appear in real-world applications.),基于此問題,本文提出了VGPHRASECUT數據集。作者使用了幾個 state of-the-art referring approaches在此數據集上進行了測試,結果都不盡人意。通過分析,作者認為這是由于數據集中的罕見類別和罕見屬性造成的(長尾效應)。
貢獻
方法
本文方法的整體框架如下圖所示,整個framework還是很清楚的。
Backbone encoders,對于image,使用MaskRCNN;對于phrase,使用 bi-directional LSTMs。
Category module,這部分分為三個步驟進行。①. 基于instances features生成category channel score,假設原圖片大小為w×hw\times hw×h,共有NNN個類,生成的category channel score大小為12w×12h×N\frac{1}{2}w\times\frac{1}{2}h\times N21?w×21?h×N。②. 基于phrase embedding生成channel attention。③. 將前兩步的結果相乘,然后再做一個仿射變換,再激活一下,就得到了結果。
Attribute module,和Category module一樣,只不過通道數不一樣,這里通道數應該是100×20100 \times 20100×20,100代表top100個objects,20代表attributes。
Relationship module,也和上文差不多,這里用的是空洞卷積,用來提高感受野。
Combining the modules,這部分有點似懂非懂,按照我理解的來寫吧。作者對上述得到的三個輸出進行elementwise product and normalization,然后得到一個10-channel的score map。將category、attribute和relationship的embedding進行concat,學得一個attention。將score map和attention結合,得到最終輸出。
實驗
在VGPHRASECUT數據集上的實驗結果,感覺rel沒啥用呀。。。
總結
以上是生活随笔為你收集整理的CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2020-07-08 CVPR2020
- 下一篇: CVPR 2020 《Where Doe