當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记

發布時間：2025/3/15 编程问答 17 豆豆

生活随笔收集整理的這篇文章主要介紹了 ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

簡介

本文出自羅徹斯特大學+騰訊AI Lab
下載鏈接

動機

現有的visual grounding方法可以分為兩類：一階段、兩階段。本文面向一階段方法，提升現有方法處理長（long）、復雜（complex）query的能力。本質是：本文提出了一個可以用在一階段visual grounding模型中的query modeling方法（兩階段模型中有很多query modeling方法，但是由于一些限制，不能直接用于一階段模型）。

貢獻

對一階段的visual grounding方法進行了改善，提升了其處理長且復雜的query的能力；

提出了一個遞歸的子查詢構建網絡，通過遞歸來降低referring ambiguity；

實驗結果好，在不同數據集上提升5-12個百分點。

方法

本文方法的整體架構如下圖所示，共包含兩個核心模塊：子查詢學習器（Sub-query Learner）和子查詢調制器（Sub-query Modulation）。

子查詢學習器負責學習Query中每個word的注意力 $αn(k)\alpha_n^{(k)}$ ，通過下式得到：
$αn(k)=softmax[Wa1(k)tanh(Wa0(k)hn(k)(v￣(k?1)⊙sn)+ba0(k))+ba1(k))]\alpha_n^{(k)}=\text{softmax}[W_{a1}^{(k)} \text{tanh}(W_{a0}^{(k)} h_{n}^{(k)} (\overline{v}^{(k-1)} \odot s_n ) + b_{a0}^{(k)} ) + b_{a1}^{(k)} )]$
可以看出，學習注意力的過程中，同時考慮了 ${s_n\}_{n=1}^{N}$ （query word feature，N代表word個數）、 $v￣(k?1)\overline{v}^{(k-1)}$ （text-conditional visual feature）和 ${h_{n}^{(k)}\}_{n=1}^{N}$ （history vector）。其中：

${s_n\}_{n=1}^{N}$ 沒什么好說的，就是query中每個單詞的特征；
$v￣(k?1)\overline{v}^{(k-1)}$ 是上一輪得到的text-conditional visual feature的均值池化（ $\times W \times C \rightarrow 1 \times 1 \times C$ ）；
${h_{n}^{(k)}\}_{n=1}^{N}$ 表示每個word在以前的迭代過程中沒被“訪問”的概率，通過 $h(k)=1?min(∑i=1k?1α(i),1)\bf{h}^{(k)} = \textbf{1} - \text{min}(\sum_{i=1}^{k-1}\bf{\alpha}^{(i)}, \bf{1})$ 計算。

對于這部分，作者添加了兩個loss，如下所示：

$Ldiv=∣∣ATA⊙(1?I)∣∣F2L_{div}=|| A^TA \odot ({\bf 1}-I) ||^2_F$ ， $A$ 是 $\times N$ 的矩陣，由每輪迭代得到的attention拼接而成， $K$ 是迭代輪數， $N$ 是word個數。此loss用于控制每一輪中，不應該focus在相同的單詞上，也就是強制提升每輪迭代關注的單詞的差異性。
$Lcover=∣∣1?min(∑i=1Kα(i),1)∣∣1L_{cover} = || \bf1-\text{min}(\sum_{i=1}^K {\bf \alpha}^{(i)}, \bf 1) ||_1$ ，此loss用于提升word的查全性。

子查詢調制器就是基于子查詢學習器得到的注意力，對text-conditional visual feature進行refine，增強referred object的特征，并壓制其他object的特征。共分為三步：

基于子查詢學習器得到的

αn(k)\alpha_n^{(k)}

對

s_n

添加attention，得到

q(k)=∑n=1Nαn(k)snq^{(k)}=\sum_{n=1}^N\alpha_n^{(k)}s_n

；

基于

q^{(k)}

，分別使用兩個MLPs得到尺度向量

γ(k)=tanh(Wγ(k)q(k)+bγ(k))\gamma^{(k)}=\text{tanh}(W_\gamma^{(k)}q^{(k)} + b_\gamma^{(k)})

和平移向量

β(k)=tanh(Wβ(k)q(k)+bβ(k))\beta^{(k)}=\text{tanh}(W_\beta^{(k)}q^{(k)} + b_\beta^{(k)})

。

基于上一輪迭代得到的text-conditional visual feature

v^{(k-1)}

、尺度向量

γ(k)\gamma^{(k)}

和平移向量

β(k)\beta^{(k)}

，計算得到此輪的text-conditional visual feature

v^{(k)}

，具體公式為：

v(k)(i,j)=f2{ReLU[f1(v(k?1)(i,j))⊙γ(k)+β(k)]+v(k?1)(i,j)}v^{(k)}(i,j)=f_2\{ ReLU[f_1(v^{(k-1)}(i,j)) \odot \gamma^{(k)} + \beta^{(k)}] +v^{(k-1)}(i,j) \}

上式中，

f_1, f_2

是兩個可學習的mapping層，具體結構在上面的整體框架圖中有展示，

f1=1×1conv+instance?normalization?layerf_1=1 \times 1 \space \text{conv} + \text{instance normalization layer}

，

f2=3×3conv+BN+ReLUf_2=3 \times 3 \space \text{conv} + \text{BN} + \text{ReLU}

。

實驗

在RefCOCO、RefCOCO+和RefCOCOg上的實驗結果：

在ReferItGame和Flickr30K Entities上的實驗結果：

關于query modeling的消融實驗：

一些可視化的結果：

總結

以上是生活随笔為你收集整理的ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： FVQA论文汇总
下一篇： ACL 2020 《Cross-Moda

编程问答

ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记

目錄

簡介

動機

貢獻

方法

實驗

總結