论文浅尝 | IRW:基于知识图谱和关系推理的视觉叙事框架
筆記整理:孫悅,天津大學?
鏈接:https://www.aaai.org/AAAI21Papers/AAAI-3382.XuC.pdf
動機
視覺敘事是生成一個短篇故事來描述有序圖像流的任務。與視覺字幕不同,故事不僅包含事實描述,還包含未出現在圖像中的想象概念。在本文中,我們提出了一種新穎的想象-推理-編寫生成框架 (IRW),用于視覺敘事,其靈感來自人類編寫故事時的邏輯。首先,利用多模態想象模塊明確學習富有想象力的故事情節,提高生成故事的連貫性和合理性。其次,我們采用關系推理模塊,通過基于故事情節的關系推理方法充分利用外部知識(常識知識庫)和任務特定知識(場景圖和事件圖)。通過這種方式,我們可以有效地捕捉圖像中對象之間信息量最大的常識和視覺關系,增強生成故事的多樣性和信息量。最后,我們整合視覺信息和語義(概念)信息來生成故事。在基準數據集(即 VIST)上進行的大量實驗表明,所提出的 IRW 框架在多個評估指標上大大優于最先進的方法。
亮點
IRW的亮點主要包括:
1.為視覺敘事提出了一種新穎的想象-推理-編寫生成框架2.提出了一種檢索增強的方法來從訓練語料庫構建事件圖。事件圖從相似圖像的故事中學習高級事件,可以為故事生成提供輔助知識。3.在基準數據集上的實驗表明,在多個評估指標中,IRW 的性能明顯優于比較方法
概念及模型
IRW內部有兩個主要模塊:encoder和decoder。Encoder采用CNN和Bi-GRU模型來編碼圖像特征以及學習圖像流的上下文信息。Decoder由三部分組成,分別是想象模塊、推理模塊以及寫作模塊,最后輸出一個連貫的、信息豐富的并且具有想象力的故事。
decoder具體由三部分構成:
?Multimodal Imagining Module:生成一個富有想象力的故事情節?Relational reasoning module:充分利用外部常識 KG 和任務特定知識(場景圖和事件圖),并學習講故事的互補語義特征?Story generation module:設計了具有引導單元的故事生成模塊。
模型整體框架如下:
?圖像編碼器
首先使用預訓練的resnet-152編碼器,對輸入的M個圖像進行編碼,然后使用Bi-GRU對M個圖像編碼再次編碼得到輸出,表達式如下。
?多模態想象模塊
如果只基于圖像特征選出圖像中主要的內容,不同圖像之間很難具有連貫性。所以在該模塊中,通過將每個圖像內容與之前生成的句子進行融合共同推斷當前圖像的主要內容。如下所示:
我們使用 GRU 通過為圖像流中的每個圖像生成一個想象的概念來生成一個 story line。以多模態融合向量 fm 作為輸入,GRU 在時間步 m 的隱藏狀態計算如下:
?關系推理模塊
該模塊會在story line上充分利用常識知識圖譜和任務特定的知識。我們利用常識知識圖(KG)來獲得與想象概念相對應的支持知識。在上一步得到每個圖片的關鍵概念后,可以在知識圖譜中進行實體提及檢測,找到top-L個候選的關系,然后就可以建立一個子圖
?場景圖
生成旨在將圖像自動映射為結構化的圖表示,這需要檢測圖像中的顯著對象及其關系。首次使用faster-rcnn作為目標檢測器,然后計算動態樹結構,將目標編碼為用于預測每個對象對之間關系的視覺上下文。
?事件圖
我們開發了一種檢索增強方法,通過詳盡地計算查詢圖像和訓練圖像之間的余弦相似度,從訓練集中為圖像流中的每個圖像檢索前 R 個視覺相似的圖像。然后,將檢索到的相似圖像的描述語句連接起來形成一個引導故事,并利用它來構建事件圖。具體來說,我們應用斯坦福開放 IE 方法為每個句子提取一個事件。每個事件都可以表示為一個關系三元組 (e1, r, e2),其中 e1 是主體實體,e2 是客體實體,r 是 e1 和 e2 之間的關系。在獲得圖像 Im 的所有事件后,我們提取在事件集 D 中具有代表性的共識事件。特別是,我們首先計算 D 中每個事件 di 和另一個事件 d 之間的語義相似度:
?圖上的關系推理:
以上的三種圖的推理方式都是一樣的,以事件圖上的推理為例。給定一個(vEm,i, eEm,ij , vEm,j )三元組,首先轉換成對應的編碼形式(vEm,i, eEm,ij , vEm,j ),應用GCN網絡去整合鄰居節點的信息,流程如下所示:
使用之前產生的文本以及圖像的關鍵內容生成注意力機制有選擇的選事件圖譜中的節點從而生成整體事件圖向量。
然后把得到的向量與事件圖的圖像進行融合,在常識知識圖譜上再進行推理。如下所示。
最后把三個圖上推理的結果進行融合。
?生成故事模塊 首先使用之前的隱藏層和關系推理對知識圖進行注意力提取,如下圖所示
然后與圖像的關鍵內容融合產生語義線索向量。
然后,為了基于先前生成的單詞自動整合視覺線索向量 rm 和語義線索向量 um,t ,我們提出了一個引導單元(gate),通過深度整合視覺線索向量 rm 和語義向量 um 來生成故事。
最后生成每個單詞的概率
實驗
作者使用了一個數據集VIST進行實驗
我們觀察到 IRW 模型在大多數自動評估措施上的性能明顯優于最先進的方法。具體來說,我們的 IRW 模型在 BLEU-4 和 CIDEr 上相對于現有最佳分數分別提高了 4.8% 和 3.7%。此外,我們的模型也大大優于 AREL、HRSL 和 ReCo-RL 方法,這些方法都采用強化學習范式來優化模型。通過部署強化學習可以進一步提高 IRW 的性能。
總結
在本文中,我們提出了一種新穎的想象-推理-編寫生成框架 (IRW),用于視覺敘事,其靈感來自人類編寫故事時的邏輯。我們利用想象模塊來學習富有想象力的故事情節,這可以提高生成故事的連貫性和合理性。然后,我們提出了一個推理模塊,通過關系推理方法充分利用外部常識知識和任務特定知識(場景圖和事件圖)。通過這種方式,可以大大增強所生成故事的多樣性和信息量。最后,我們設計了一個引導單元來整合視覺和語義知識以生成類人故事。對基準數據集的大量實驗表明,與強基線相比,IRW 取得了有競爭力的結果。
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 | IRW:基于知识图谱和关系推理的视觉叙事框架的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 从Java程序员进阶架构师,必看的书单推
- 下一篇: 领域应用 | 企业效益最大化的秘密:知识