论文浅尝 - CVPR2020 | 基于网格特征的可视问答系统
論文筆記整理:李爽,天津大學。
鏈接:https://arxiv.org/pdf/2001.03615v1.pdf
動機
隨著“自下而上”注意力的普及,基于邊界框(或區域)的視覺特征最近已經超越了傳統的基于網格的卷積特征,成為視覺和語言任務的事實標準。然而,目前尚不清楚區域優勢是否是自下而上的注意力成功的關鍵原因。作者重新審視了用于VQA的網格特性,發現它們的性能令人驚訝——在同樣的精度下,運行速度要快一個數量級。通過大量的實驗,作者驗證了這種觀察在不同的VQA模型(報告了最先進的VQA 2.0 test-std, 72.71)、數據集上都是正確的,并且可以很好地推廣到其他任務,比如圖像描述。作者從頭到尾學習了VQA模型,從像素直接到答案,并證明了在訓練前不使用任何區域標注也可以實現較強的性能。
亮點
在基于邊界框的視覺特征已經廣為應用,替代了傳統的基于網格特征的現狀下,作者又重新審視了網格特征,將網格特征與區域特征進行實驗對比,探索二者的性能是否存在大的差異。
論文框架介紹
Bottom-Up Attention with Regions
自下而上的注意力方法使用了Faster R-CNN檢測模型。為了獲得像VQA這樣的任務的自下而上的注意力特征,需要兩個與區域相關的步驟:
1、區域選擇。
由于Faster R-CNN是一個兩級檢測器,因此在管道中進行兩次區域選擇。第一個是通過區域建議網絡,它變形并選擇突出的候選“錨”作為感興趣的區域(RoIs)。另一個選擇作為后處理完成,以類的方式聚合頂部N個框。在這兩個步驟中,都使用了非最大抑制(NMS),保持分類分數最高的區域,并去除局部鄰域內的其他近重復項。
2、區域特性計算。
給定第一階段的區域(最多數千個),使用RoIPool操作提取初始的區域級特征。然后,其他網絡層分別計算區域的輸出表示。最后,通過兩次選擇的區域特征被堆疊在一起作為自下而上的特征來表示圖像。
需要注意的是,由于VG數據集的復雜性和使用的特定Faster R-CNN檢測器,這兩個步驟都需要大量計算。相反,直接使用網格特性可以跳過或加速這些步驟,并提供潛在的顯著加速。
Grid Features from the Same Layer
將區域特征轉換為網格的最簡單的方法是看是否可以直接計算相同網絡層的輸出,但以共享的、完全卷積的方式。為此,進一步研究最初的自下而上的attention所使用的特定Faster R-CNN架構。
Faster R-CNN是C4模型的一個變體,增加了一個用于屬性分類的分支。它將ResNet的權重劃分為兩個單獨的集合:給定一個輸入圖像,它首先使用ResNet到C4的較低的塊計算feature maps。這張feature map是所有區域共享的。然后,在14×14 RoIPool特征上分別應用C5塊進行逐區域特征計算。然后,C5的輸出被AvgPool轉換為每個區域的最終向量,作為自下而上特征。由于最終的區域特征都來自C5,所以很容易將檢測器轉換回ResNet分類器,并使用相同的C5層作為我們的輸出網格特征。如圖說明了轉換過程。
1×1 RoIPool for Improved Grid Features
簡單地使用1×1 RoIPool對模型做一些最小的調整來改進網格特征。這意味著用一個向量來表示每個區域,而不是在Faster R-CNN中使用一個三維張量。雖然這種修改對VG上的對象檢測性能有負面影響,但重要的是,使用1×1的RoIPool regions也意味著網格feature map上的每個向量必須單獨覆蓋一個空間區域的所有信息,這可能會導致更強的網格特征。
但是直接在原始模型上應用1×1 RoIPool是有問題的,可能是因為C5由幾個ImageNet預先訓練好的卷積層組成,這些層最適合特定空間維度的輸入。為了解決這個問題,作者在對象檢測和使用整個ResNet到C5作為共享特征計算骨干;對于區域級計算,在頂部放置兩個1024D全連接(FC)層,默認情況下接受向量作為輸入。
在使用C5匯聚的特征訓練檢測器時,為了減少低分辨率的影響,將stride-2層替換為stride-1層,其余的層以2的倍數擴張。對于網格特征提取,移除這個膨脹并將其轉換回正常的ResNet。下圖為改進網格之后的轉換過程。
實驗
從這一部分開始,報告比較區域和網格的實驗結果。作者選擇VQA2.0作為感興趣的主要任務,因為它目前是評估聯合視覺和語言理解的主要基準,并且具有清晰的評估指標。為了進行分析,默認情況下,作者將Faster R-CNN與ResNet-50骨干網一起在ImageNet上進行預訓練,主要結果如下表所示。
為了了解這些不同數量的區域特征如何影響精度,作者對不同數量的特征N進行了實驗,結果如下圖所示。
與以前的設置不同,作者使用trainval + vqa-eval進行訓練。下表為對比結果。與直接使用卷積特征圖的網格特征不同,區域特征涉及區域選擇和區域特征計算的其他操作。對于基于區域的模型,這些額外的操作花費了總推理時間的98.3%。將作者的網格特征作為輸入的VQA模型比使用自下而上的區域特征的模型運行速度快48倍。
作者提出網格特征能夠work的原因有以下兩點:
Input Image Size
在ImageNet預訓練模型的特征提取過程中使用的標準圖像大小為448×448,丟棄了縱橫比;而對于自下而上注意力中的VG檢測,默認尺寸為600×1000,同時保持縱橫比不變。作者對不同的組合進行了實驗,下表為實驗結果結果。從結果可以看出,對于網格特性,更大的輸入大小意味著VQA模型有更多的特性。
Pre-Training Task
研究在ImageNet(分類)和VG(detection)中由于預訓練任務而導致的VQA精確度的差異。為了更好地理解這些差異,作者在每個環境中引入了一個額外的預訓練模型。對于分類,包括了一個在YFCC上訓練過的模型,它有92M張帶有圖像標簽的圖像。對于檢測,包括一個來自COCO的標準模型,它只有對象注釋(沒有屬性)。所有型號都使用ResNet-50主干網進行公平比較。結果見下表。
總結
在文章中,作者重新討論網格特征,作為視覺和語言任務中廣泛使用的自下而上區域特征的替代方法,結果表明,二者的效果不相上下。作者也發現,相對于特征的“格式”(區域與網格),特征所代表的語義內容對其有效性更為關鍵,而這種有效的表示可以通過對對象和屬性數據集(如VG)的預訓練來實現。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 - CVPR2020 | 基于网格特征的可视问答系统的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | AMUSE: 基于 RDF
- 下一篇: 论文浅尝 | Iterative Cro