當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记

發布時間：2025/3/15 编程问答 16 豆豆

生活随笔收集整理的這篇文章主要介紹了 CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

簡介

本文是一篇poster，作者來自馬薩諸塞大學阿姆赫斯特分校和Adobe研究院。
明確一下本文的task：在圖片中分割出給定的短語。
下載鏈接

動機

現有的數據集缺乏在實際應用中出現的概念的規模和多樣性（lack the scale and diversity of concepts that appear in real-world applications.），基于此問題，本文提出了VGPHRASECUT數據集。作者使用了幾個 state of-the-art referring approaches在此數據集上進行了測試，結果都不盡人意。通過分析，作者認為這是由于數據集中的罕見類別和罕見屬性造成的（長尾效應）。

貢獻

提出VGPHRASECUT數據集。

提出模塊化方法，可以將類別、屬性和關系相關的視覺cues進行結合。

通過利用對更頻繁的類別和屬性的預測，提高模型在罕見類別和屬性上的性能。

方法

本文方法的整體框架如下圖所示，整個framework還是很清楚的。

Backbone encoders，對于image，使用MaskRCNN；對于phrase，使用 bi-directional LSTMs。
Category module，這部分分為三個步驟進行。①. 基于instances features生成category channel score，假設原圖片大小為 $w×hw\times h$ ，共有 $N$ 個類，生成的category channel score大小為 $12w×12h×N\frac{1}{2}w\times\frac{1}{2}h\times N$ 。②. 基于phrase embedding生成channel attention。③. 將前兩步的結果相乘，然后再做一個仿射變換，再激活一下，就得到了結果。
Attribute module，和Category module一樣，只不過通道數不一樣，這里通道數應該是 $100 \times 20$ ，100代表top100個objects，20代表attributes。
Relationship module，也和上文差不多，這里用的是空洞卷積，用來提高感受野。
Combining the modules，這部分有點似懂非懂，按照我理解的來寫吧。作者對上述得到的三個輸出進行elementwise product and normalization，然后得到一個10-channel的score map。將category、attribute和relationship的embedding進行concat，學得一個attention。將score map和attention結合，得到最終輸出。

實驗

在VGPHRASECUT數據集上的實驗結果，感覺rel沒啥用呀。。。

總結

以上是生活随笔為你收集整理的CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 2020-07-08 CVPR2020
下一篇： CVPR 2020 《Where Doe

编程问答

CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记

目錄

簡介

動機

貢獻

方法

實驗

總結