ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记
目錄
- 簡介
- 動機
- 貢獻
- 方法
- 實驗
簡介
本文出自羅徹斯特大學+騰訊AI Lab
下載鏈接
動機
現有的visual grounding方法可以分為兩類:一階段、兩階段。本文面向一階段方法,提升現有方法處理長(long)、復雜(complex)query的能力。本質是:本文提出了一個可以用在一階段visual grounding模型中的query modeling方法(兩階段模型中有很多query modeling方法,但是由于一些限制,不能直接用于一階段模型)。
貢獻
方法
本文方法的整體架構如下圖所示,共包含兩個核心模塊:子查詢學習器(Sub-query Learner)和子查詢調制器(Sub-query Modulation)。
子查詢學習器負責學習Query中每個word的注意力αn(k)\alpha_n^{(k)}αn(k)?,通過下式得到:
αn(k)=softmax[Wa1(k)tanh(Wa0(k)hn(k)(v ̄(k?1)⊙sn)+ba0(k))+ba1(k))]\alpha_n^{(k)}=\text{softmax}[W_{a1}^{(k)} \text{tanh}(W_{a0}^{(k)} h_{n}^{(k)} (\overline{v}^{(k-1)} \odot s_n ) + b_{a0}^{(k)} ) + b_{a1}^{(k)} )]αn(k)?=softmax[Wa1(k)?tanh(Wa0(k)?hn(k)?(v(k?1)⊙sn?)+ba0(k)?)+ba1(k)?)]
可以看出,學習注意力的過程中,同時考慮了{sn}n=1N\{s_n\}_{n=1}^{N}{sn?}n=1N?(query word feature,N代表word個數)、v ̄(k?1)\overline{v}^{(k-1)}v(k?1)(text-conditional visual feature)和{hn(k)}n=1N\{h_{n}^{(k)}\}_{n=1}^{N}{hn(k)?}n=1N?(history vector)。其中:
- {sn}n=1N\{s_n\}_{n=1}^{N}{sn?}n=1N?沒什么好說的,就是query中每個單詞的特征;
- v ̄(k?1)\overline{v}^{(k-1)}v(k?1)是上一輪得到的text-conditional visual feature的均值池化(H×W×C→1×1×CH \times W \times C \rightarrow 1 \times 1 \times CH×W×C→1×1×C);
- {hn(k)}n=1N\{h_{n}^{(k)}\}_{n=1}^{N}{hn(k)?}n=1N?表示每個word在以前的迭代過程中沒被“訪問”的概率,通過h(k)=1?min(∑i=1k?1α(i),1)\bf{h}^{(k)} = \textbf{1} - \text{min}(\sum_{i=1}^{k-1}\bf{\alpha}^{(i)}, \bf{1})h(k)=1?min(∑i=1k?1?α(i),1)計算。
對于這部分,作者添加了兩個loss,如下所示:
- Ldiv=∣∣ATA⊙(1?I)∣∣F2L_{div}=|| A^TA \odot ({\bf 1}-I) ||^2_FLdiv?=∣∣ATA⊙(1?I)∣∣F2?,AAA是K×NK \times NK×N的矩陣,由每輪迭代得到的attention拼接而成,KKK是迭代輪數,NNN是word個數。此loss用于控制每一輪中,不應該focus在相同的單詞上,也就是強制提升每輪迭代關注的單詞的差異性。
- Lcover=∣∣1?min(∑i=1Kα(i),1)∣∣1L_{cover} = || \bf1-\text{min}(\sum_{i=1}^K {\bf \alpha}^{(i)}, \bf 1) ||_1Lcover?=∣∣1?min(∑i=1K?α(i),1)∣∣1?,此loss用于提升word的查全性。
子查詢調制器就是基于子查詢學習器得到的注意力,對text-conditional visual feature進行refine,增強referred object的特征,并壓制其他object的特征。共分為三步:
v(k)(i,j)=f2{ReLU[f1(v(k?1)(i,j))⊙γ(k)+β(k)]+v(k?1)(i,j)}v^{(k)}(i,j)=f_2\{ ReLU[f_1(v^{(k-1)}(i,j)) \odot \gamma^{(k)} + \beta^{(k)}] +v^{(k-1)}(i,j) \}v(k)(i,j)=f2?{ReLU[f1?(v(k?1)(i,j))⊙γ(k)+β(k)]+v(k?1)(i,j)}
上式中,f1,f2f_1, f_2f1?,f2?是兩個可學習的mapping層,具體結構在上面的整體框架圖中有展示,f1=1×1conv+instance?normalization?layerf_1=1 \times 1 \space \text{conv} + \text{instance normalization layer}f1?=1×1?conv+instance?normalization?layer,f2=3×3conv+BN+ReLUf_2=3 \times 3 \space \text{conv} + \text{BN} + \text{ReLU}f2?=3×3?conv+BN+ReLU。
實驗
在RefCOCO、RefCOCO+和RefCOCOg上的實驗結果:
在ReferItGame和Flickr30K Entities上的實驗結果:
關于query modeling的消融實驗:
一些可視化的結果:
總結
以上是生活随笔為你收集整理的ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: FVQA论文汇总
- 下一篇: ACL 2020 《Cross-Moda