ICCV 2019《Zero-Shot Grounding of Objects from Natural Language Queries》论文笔记
目錄
- 簡介
- 動機(jī)
- 貢獻(xiàn)
- 方法
- 實驗
簡介
本文出自南加大,可以對訓(xùn)練集中沒有出現(xiàn)的words(或categories)進(jìn)行g(shù)rounding。
下載鏈接
動機(jī)
已有的grounding方法在測試時,只能對訓(xùn)練集中出現(xiàn)過的words(或phrases)進(jìn)行定位。本文提出一個新的task——zero-shot grounding,致力于對訓(xùn)練集中沒有出現(xiàn)的words(或phrases)進(jìn)行定位。但是,由于detector能夠識別的categories受限于訓(xùn)練數(shù)據(jù),兩階段的grounding方法不適用于此任務(wù)。綜上,本文提出了一階段的zero-shot grounding方法(多模態(tài)特征融合+SSD)。
上圖中,(a)和(b)是訓(xùn)練數(shù)據(jù),?代表常規(guī)的visual grounding方法可以處理的測試數(shù)據(jù),(d)、(e)和(f)是訓(xùn)練集中不存在的數(shù)據(jù)(words、categories),也就是zero-shot grounding想要解決的case。
貢獻(xiàn)
- 提出新任務(wù)——Zero-shot grounding;
- 提出解決新任務(wù)的baseline方法——ZSGNet;
- 構(gòu)造了新任務(wù)的數(shù)據(jù)集——Flickr-Split-0、Flickr-Split-1、VG-Split-2和VG-Split-3;
- 在構(gòu)造的數(shù)據(jù)集上測試了ZSGNet,驗證了方法的有效性。
方法
首先,看一下本文方法和傳統(tǒng)grounding中的兩階段方法在pipeline上的對比:
其實作者提出ZSGNet從結(jié)構(gòu)上看也是一目了然的,就是將visual feature、language feature和anchor locations在通道維度上進(jìn)行concatenation,再使用FCN輸出每個bbox的score和offset,損失函數(shù)也是非常常規(guī),用Focal Loss監(jiān)督分類,用Smooth L1 Loss監(jiān)督bbox offset回歸。
實驗
本文為不同的條件設(shè)置了四種不同的條件:
- ①. 新的query word(圖一中def);
- ②. 新的referent類別(圖一中d);
- ③. 新的referent類別(new category),但是此類別和訓(xùn)練集中已有類別(origin category)近似,且new category和origin category沒有同時出現(xiàn)在測試數(shù)據(jù)中(圖一中e);
- ④. 和③相比,兩種category同時出現(xiàn)在測試數(shù)據(jù)中(圖一中f)。本文使用word embedding來衡量words之間的相似度。
本文根據(jù)上面四個條件,構(gòu)造了Flickr-Split-0、Flickr-Split-1、VG-Split-2和VG-Split-3,分別對應(yīng)于四種不同的條件。
下表是和其他SOTA方法在Flickr30k和ReferIt數(shù)據(jù)集上的實驗結(jié)果:
下表是在本文構(gòu)造的四個數(shù)據(jù)集上的實驗結(jié)果,0.3和0.5代表IoU threshold,B和UB代表balanced和unbalanced。
下圖是一些grounding結(jié)果,第一行出自Flickr30k和ReferIt數(shù)據(jù)集,第二行出自Flickr-Split-0、1數(shù)據(jù)集(對應(yīng)于條件①②),第三行出自VG-Split-2、3數(shù)據(jù)集(對應(yīng)于條件①②),最后一列是failed case。
總結(jié)
以上是生活随笔為你收集整理的ICCV 2019《Zero-Shot Grounding of Objects from Natural Language Queries》论文笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ECCV 2020《Linguistic
- 下一篇: 20201125 《计算感知》武老师 第