2021.01.29 Visual QA论文阅读
目錄
- [2014][NIPS] A Multi-World Approach to Question Answering about Real-World Scenes based on Uncertain Input
- [2015][CVPR] VisKE: Visual Knowledge Extraction and Question Answering by Visual Verification of Relation Phrases
[2014][NIPS] A Multi-World Approach to Question Answering about Real-World Scenes based on Uncertain Input
文章鏈接
本文作者是馬普所的Malinowski,這是第一篇提出將視覺和語言進行聯合來回答問題的論文,但是對任務的定義不夠明確,提出的數據集DAQUAR只有約12000個qa pair,圖片是RGBD形式的,且我沒找到下載鏈接。。。
在方法上,作者基于貝葉斯框架搭建了模型,并提出了兩個針對不同場景的方法,分別是:Single-world approach和Multi-worlds approach。前者的整個過程可以歸納為:P(A∣Q,W)=∑TP(A∣T,W)P(T∣Q)P(A|Q,W)=\sum_{T}P(A|T,W)P(T|Q)P(A∣Q,W)=∑T?P(A∣T,W)P(T∣Q),后者的整個過程可以歸納為:P(A∣Q,S)=∑W∑TP(A∣W,T)P(W∣S)P(T∣Q)P(A|Q,S)=\sum_{W} \sum_{T} P(A|W,T) P(W|S) P(T|Q)P(A∣Q,S)=∑W?∑T?P(A∣W,T)P(W∣S)P(T∣Q)
在實驗結果上,作者使用WUP score作為評價指標,
[2015][CVPR] VisKE: Visual Knowledge Extraction and Question Answering by Visual Verification of Relation Phrases
文章鏈接
本文一作Sadeghi出自華盛頓大學。以前的方法都關注于語言或文本的推理、驗證,本文是第一個提出做視覺短語關系驗證(visual verification of relation phrases)的。而本文模型,實際上,就是輸入一個關系謂語,如“吃(馬,草)”,就是“馬吃草嗎?”,模型通過對網絡上的圖片進行檢索,建模,最終得出“是”這個答案。
本文的整體框架如下圖所示,可以看出,這是一個無監督(額,檢索過程實際上不是相當于用了別人訓練好的檢索模型?)的方法,首先對輸入的關系謂語進行圖片檢索,使用五個不同的檢測器對圖片進行檢測,再經過后處理得到結果。
后處理過程其實就是極大似然估計。
在實現上,作者使用[9]中的方法,分別訓練S、O、SV、VO和SVO的檢測器。然后,對于每個檢測器,使用[16]中的方法,訓練出一個DPM,視為一個組件。并在單獨的驗證步驟時,對有噪聲的組件進行修剪。最終,通過factors將這些獨立的檢測器進行混合。
在Relation Phrase數據集上的實驗結果:
參考文獻
[9] S. Divvala, A. Farhadi, and C. Guestrin. Learning everything about anything: Webly-supervised visual concept learning. In CVPR, 2014. 2, 4, 6
[16] P. Felzenszwalb et al. Object detection with discriminatively trained part based models. PAMI, 2010. 2, 4
[28] J. Pearl. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Morgan Kaufmann Publishers Inc., 1988. 4
總結
以上是生活随笔為你收集整理的2021.01.29 Visual QA论文阅读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ECCV 2020《TRRNet: Ti
- 下一篇: 2021.01.30 Visual QA