ECCV 2020《TRRNet: Tiered Relation Reasoning for Compositional Visual Question Answering》论文笔记
目錄
- 簡介
- 動機
- 貢獻
- 方法
- 實驗
簡介
本文一作是南洋理工大學的Xiaofeng Yang。
文章鏈接
動機
現有的VQA方法可以分為兩類,第一類側重于對視覺和語言的跨模態聯合建模,但是由于缺乏關系推理能力,在組合推理任務上的表現較差。第二類主要側重于神經模塊的設計,但是這類方法需要手工設計,在real-world數據集上難以適用(具有過多的目標類別和可能的推理action)。本文在VQA中引入關系推理,單純地基于圖片提取objects并建立它們之間的關系會帶來很大的噪聲,并且需要大量的計算資源。而實際上,一個question中一般不包括超過6個objects。
貢獻
- 提出了新穎的分層注意力方法,由TRR units構成TRR network,每個TRR units由四個部分組成:① root attention、② root to leaf attetnion passing module、③ leaf attention、④ message passing module,這四個模塊的作用后面再介紹。
- 提出一個策略網絡,能夠根據question和推理結果選擇最佳的推理步驟。
- 在GQA test2019上準確率為60.74,在VQAv2和CLEVR上效果也還不錯。
方法
本文方法的主要思想如下圖所示。首先,在object-level上做一個注意力,得到一些候選objects,再將這些候選objects進一步細分,得到相關、不相關兩類objects,不相關的objects直接丟棄,相關的objects之間建立兩兩關系。
本文具體方法如下圖所示,本質是TRR units的堆疊。每個TRR unit包含四個部分:① root attention、② root to leaf attetnion passing module、③ leaf attention、④ message passing module,下面分別進行介紹。
- ① root attention。這部分基于object特征VVV、bbox特征BBB和word特征EEE生成object-level的注意力αobject\alpha ^{object}αobject,和object特征融合后,得到融合的object特征OrootO^{root}Oroot作為輸出。
- ② root to leaf attetnion passing module。這部分和OrootO^{root}Oroot沒有什么關系,和αobject\alpha ^{object}αobject有關系。這部分首先基于αobject\alpha ^{object}αobject、object特征VVV和超參數KKK選出KKK個object,然后將得到的object特征和其對應的bbox特征concat一下,再兩兩建立關系,得到關系特征RRR。
- ③ leaf attention。這部分首先基于question embedding eee、關系特征RRR做一些fc后得到特征hhh,再基于hhh使用softmax得到relation-level注意力αrelation\alpha ^{relation}αrelation,將注意力和關系特征結合,得到OleafO^{leaf}Oleaf作為輸出。
- ④ message passing module。由于要實現多步推理,這個模塊的主要作用是,將OleafO^{leaf}Oleaf和object特征VVV結合,得到下一次迭代過程中的輸入VnewV_{new}Vnew?。
綜上,每個TRR unit的處理過程可以總結為:
Otroot,Otleaf,Vt+1=TRRt(B,Vt,E)O^{root}_{t}, O^{leaf}_{t}, V_{t+1} = TRR_{t}(B, V_t, E)Otroot?,Otleaf?,Vt+1?=TRRt?(B,Vt?,E)
至于什么時候停止推理,作者設計了策略網絡,結合OtrootO^{root}_{t}Otroot?、word特征EEE和當前推理次數ttt共同決定。當停止推理后,基于OtrootO^{root}_{t}Otroot?、OtleafO^{leaf}_{t}Otleaf?和EEE得到最終答案。
實驗
在GQA test2019上的實驗結果:
一些可視化的實驗結果:
總結
以上是生活随笔為你收集整理的ECCV 2020《TRRNet: Tiered Relation Reasoning for Compositional Visual Question Answering》论文笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Video Question Answe
- 下一篇: 2021.01.29 Visual QA