2021.02.02 Visual QA论文阅读
目錄
- [2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction
- [2016][CVPR] Neural Module Networks
[2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction
文章鏈接
本文主要的創(chuàng)新點(diǎn)是,會根據(jù)問題自適應(yīng)地生成網(wǎng)絡(luò)參數(shù),由于參數(shù)過多會造成過擬合等問題,作者使用了[3]中的哈希方法來降低參數(shù)量。另外,本文使用的GRU單元在大型語料庫上進(jìn)行了預(yù)訓(xùn)練。
本文方法的整體架構(gòu)如下圖所示,非常容易看懂。
作者在DAQUAR、VQA和COCO-QA三個數(shù)據(jù)集上做了實驗:
[3] W. Chen, J. T. Wilson, S. Tyree, K. Q. Weinberger, and Y. Chen. Compressing neural networks with the hashing trick. In ICML, 2015. 2, 4, 5
[2016][CVPR] Neural Module Networks
文章鏈接
本文出自UCB的Andreas,是VQA領(lǐng)域的里程碑作品。作者從多個任務(wù)和網(wǎng)絡(luò)結(jié)構(gòu)出發(fā),首先,對于不同的任務(wù),網(wǎng)絡(luò)結(jié)構(gòu)是不通用的,但是,它們在經(jīng)驗上都是模塊化的(一個任務(wù)的中間表示是對其他任務(wù)是有用的)。因此,Andreas通過探索神經(jīng)網(wǎng)絡(luò)的表達(dá)能力和靈活的組合能力,嘗試去做VQA。
本文的模型結(jié)構(gòu)如下圖所示,對于輸入的Image和Question,使用CNN提取Image的特征,使用Parser對Question進(jìn)行解析,得到layout。再根據(jù)layout對神經(jīng)模塊(本文預(yù)定義了5種模塊,下文再講)進(jìn)行組合,得到specific network。使用LSTM建模常識和dataset bias,將question整體feature和specific network的結(jié)果結(jié)合,得到最終答案。
作者預(yù)定義的5個模塊如下圖所示,通過對這5個模塊進(jìn)行組合,應(yīng)對不同的question。
本文提出了SHAPES數(shù)據(jù)集,這是一個合成數(shù)據(jù)集,包含224個unique question、64張圖片和15616個QA pair(14592個訓(xùn)練,1024個測試)。
本文方法在SHAPES數(shù)據(jù)集上的實驗結(jié)果,其中size是modules 的個數(shù)。
在VQA數(shù)據(jù)集上的實驗結(jié)果:
可視化的實驗結(jié)果:
總結(jié)
以上是生活随笔為你收集整理的2021.02.02 Visual QA论文阅读的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2021.02.01 Visual QA
- 下一篇: 2021.02.03 Visual QA