论文浅尝 | 用于视觉推理的显式知识集成
論文筆記整理:劉克欣,天津大學碩士
鏈接:https://openaccess.thecvf.com/content/CVPR2021/papers/Zhang_Explicit_Knowledge_Incorporation_for_Visual_Reasoning_CVPR_2021_paper.pdf
動機
現有的可解釋的和顯式的視覺推理方法僅執行基于視覺證據的推理,而不考慮視覺場景之外的知識。為了解決視覺推理方法和真實世界圖像語義復雜性之間的知識鴻溝,文章提出了第一個顯式視覺推理方法,該方法結合了外部知識并對高階關系注意進行建模,以提高視覺推理的泛化性和可解釋性。
亮點
文章的亮點主要包括:
1.首次提出利用外部知識和神經模塊來實現可泛化性和可解釋性的顯示視覺推理模型;2.設計了一個新穎的知識集成網絡(Knowledge Incorporation Network, KINet),將外部知識作為額外的節點和邊顯式地集成到場景圖中,為推理提供豐富的語義;3.設計了一個基于場景圖拓撲和語義實現高階關系關注的圖相關(Graph-Relate)模塊。
概念及模型
文章提出的方法利用場景圖、外部知識和神經模塊這三部分實現可解釋的、顯式視覺推理。首先通過顯式地結合外部知識來創建豐富的場景圖,然后執行由問題生成的神經模塊程序。
文章的方法主要包括兩部分:
?知識集成網絡(Knowledge Incorporation Network , KI-Net):將外部知識圖中的實體和謂詞顯式地合并到場景圖中。?圖關聯(Graph-Relate, G-Relate)模塊:基于強化的場景圖學習高階知識。
模型整體框架如下:
?知識集成網絡
知識集成網絡將外部知識作為節點引入場景圖中:首先,基于外部知識圖的拓撲,執行拓撲擴展(topological extension),以將外部關系合并到場景圖中(例如,上圖中,通過顯式地在場景圖中添加shirt和helmet節點,增加了man-wearing-shirt和man-wearing-helmet)。然后,考慮視覺和語義特征,執行語義細化(semantic refinement)以選擇性地丟棄與視覺相關性低的候選實體(例如上圖中的shirt)。知識集成網絡產生一個增強的場景圖,允許神經模塊對集成的語義進行顯式推理。它由使用交叉熵損失的基本真實場景圖注釋來監督。拓撲擴展時,首先利用場景圖和知識圖譜中語義相同的節點e,在兩個圖譜之間搭建橋梁。用d(., .)表示兩個節點之間的關系,則知識圖譜中與節點e相鄰的節點e’和邊p’如果滿足下式,就會被添加到場景圖中:
語義細化時,文章計算一個相關性矩陣M來衡量不同實體之間的特征相關性。M中的元素mij的更新方式如下:
其中,hi和hj是圖譜中兩個相鄰節點vi和vj的特征,N(vi)表示vi的鄰域。
?神經模塊推理
神經推理模塊引入圖關聯(G-Relate)模塊,通過計算非相鄰圖節點的注意力獲取高階關系。作者設計了三種類型的神經網絡:注意力(attention)、邏輯(logic)和輸出(output)。注意力在推理過程中計算不同圖像內容(例如,圖像特征或場景圖節點)的相對重要性。基于注意模塊,邏輯模塊(也就是,And,Or和Not)基于注意權重執行邏輯操作,輸出模塊(也就是,Compare,Count,Exist,Choose,Describe和Verify)根據不同的問題類型計算輸出特征。特定的神經模塊及其實現如下表所示。
這三類神經模塊組成一個程序,對豐富的場景圖進行推理。
其中的G-Relate模塊可以在強化的場景圖上推斷高階關系,因此注意可以通過關聯路徑被轉換以到達遠距離實體。給定注意a,G-Relate模塊計算轉換矩陣Wh以在場景圖中傳播注意。通過轉換矩陣,圖注意的更新方式為:
其中norm(.)表示使用softmax函數對所有實體節點的注意權重進行規范化。實體ei和實體ej之間的轉換權重wij的計算方式如下:
理論分析
實驗
作者采用了2個公開數據集進行實驗,分別是:GQA和VQAv2。首先是有效性實驗,模型的評價指標為準確率。
文章所提的方法在GQA測試數據集上獲得了64.21%的總體準確性,在VQAv2驗證數據集上獲得了67.32%的總體準確性,在兩個數據集上都優于最先進的神經模塊模型。
此外,文章中展示了定性實例以及幫助預測的從外部知識中集成的關鍵關系。在多源外部知識的幫助下,文章的方法對具有域外知識的問題更具普適性,對開放性問題(見下圖a)和二元性問題(見下圖b-d)的回答更具體、更正確。
同時,作者在VQAv2驗證數據集上將所提的KI-Net與最先進的場景圖生成模型GB-Net進行了比較。
實驗顯示了相關實體和謂詞的顯式合并允許KI-Net在所有度量上生成更好的場景圖。
為了證明KI-Net在包含多個知識源以生成豐富場景圖方面的能力,文章比較了WordNet、ConceptNet、Visual Genome或所有三者的組合的有效性。
實驗表明,即使只有一個外部知識庫,KI-Net也能顯著提高場景圖的質量。
總結
文章通過引入一種強調外部知識和高階關系注意的顯式集成的可解釋和顯式視覺推理方法來解決視覺推理的可概括性和可解釋性。它由一個知識集成網絡(KI-Net)和一個圖關聯(G-Relate)模塊組成,知識集成網絡顯式地集成了新的實體和謂詞來豐富場景圖的語義,圖關聯(G-Relate)模塊用來推斷高階關系。文章的方法可以回答關于真實世界圖像的一般性問題,同時具有普遍性和可解釋性。
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 | 用于视觉推理的显式知识集成的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - EMNLP | 通过元强化
- 下一篇: 征稿 | 2019年全国知识图谱与语义计