【论文泛读】Modeling Intra and Inter-modality Incongruity for Multi-Modal Sarcasm Detection
論文題目:Modeling Intra and Inter-modality Incongruity for Multi-Modal Sarcasm Detection
時間:2020
來源:EMNLP
論文鏈接:點擊跳轉
論文代碼:點擊跳轉
又沒有代碼 太難了
目錄
- 摘要
- 介紹
- 2. 方法
- 2.1 任務定義
- 2.2 背景
- 2.3 模型架構
- 3. 實驗
- 3.1 數據集
- 3.2 基線模型
- 3.3 實驗設置
- 3.4 實驗結果
- 3.5 消融研究
- 3.6 模型分析
- 4. 相關工作
- 4.1基于文本的諷刺檢測
- 4.2多模態諷刺檢測
- 5. 結論
摘要
??諷刺是當今社交媒體平臺(例如 Twitter 和 Reddit)中普遍存在的現象。這些平臺允許用戶創建多模式消息,包括文本、圖像和視頻。現有的多模態諷刺檢測方法要么簡單地連接多模態的特征,要么以設計的方式融合多模態信息。然而,他們忽略了諷刺話語中的不協調性,這種不協調性往往表現在情態之間或情態之內。受此啟發,我們提出了一個基于 BERT 架構的模型,該模型專注于多模態諷刺檢測的模態內和模態間不協調。具體來說,我們受到自我注意機制和設計多模態注意以捕獲多模態不協調的想法的啟發。此外,還應用了共同注意機制來模擬文本內部的矛盾。然后將不一致信息用于預測。實驗結果表明,我們的模型在公共多模態諷刺檢測數據集上達到了最先進的性能。
介紹
??諷刺是一種比喻語言,其中單詞的字面含義不成立,而是打算進行相反的解釋(Joshi 等,2017)。諷刺在當今的社交媒體平臺中很普遍,它可以完全翻轉情緒或意見的極性。因此,有效的諷刺檢測器有利于情感分析、意見挖掘(Pang 和 Lee,2007)以及其他需要人們真實情感的任務。然而,諷刺的比喻性質使其成為一項具有挑戰性的任務(Liu,2010)。學者們注意到諷刺通常與一個稱為不協調的概念相關聯,該概念用于暗示現實與期望之間的區別。因此,通過捕獲文本中的不協調性,提出了許多諷刺檢測方法(Riloff 等人,2013 年;Joshi 等人,2015 年;Tay 等人,2018 年;Xiong 等人,2019 年)。
??越來越多的應用程序(如 Twitter)允許用戶發布多模式消息。因此,僅對文本模態內的不協調進行建模不足以識別模態間矛盾的諷刺。考慮圖 1 中的給定示例;人們不能僅僅從文本中識別諷刺,除非他們發現文本和圖像之間的矛盾。因此,捕獲模態之間的不協調對于多模態諷刺檢測非常重要。
??然而,現有的多模態諷刺檢測模型要么連接多模態的特征(Schifanella et al., 2016),要么以設計的方式融合來自不同模態的信息(Cai et al., 2019)。以前的多模態諷刺檢測方法忽略了諷刺的不協調性。我們相信對于捕捉多模態諷刺檢測的模態內和模態間的不協調是有意義的。
??在這項工作中,我們將圖像和文本視為兩種模態,并提出了一種新的基于 BERT 架構的模型,用于多模態諷刺檢測。 BERT 作為 Devlin 等人提出的預訓練語言模型。 (2019),可用于生成出色的文本表示。出于這個原因,我們利用 BERT 來獲取文本中的文本和主題標簽(使用前面帶有“#”的單詞來表示推文的主題)的表示。我們注意到主題標簽可能包含與文本形成對比的信息。 Maynard 和 Greenwood (2014) 也在主題標簽的幫助下研究了情緒和諷刺。因此,我們應用一個共同注意矩陣來將文本和主題標簽之間的不一致建模為模態內的不一致。此外,自注意力機制考慮了鍵和查詢之間的交互,模態間的不一致信息也可以被視為文本和圖像之間的交互。因此,受自注意力這一關鍵思想的啟發,我們設計了多模態注意力,將文本特征視為查詢,將圖像特征視為鍵和值,以捕捉模態間的不一致。然后組合模態內和模態間不一致信息以進行預測。
我們工作的主要貢獻可以總結如下:
- 我們提出了一種新的基于 BERT 架構的多模態諷刺檢測模型,旨在解決現有的多模態諷刺檢測模型沒有考慮諷刺的不協調特征的問題
- 我們設計了模態間注意來模擬模態之間的不一致,并應用共同注意機制來模擬文本模態內的不一致以進行多模態諷刺檢測
- 我們進行了一系列實驗來展示我們模型的有效性,我們的模型在 F1 分數上比最先進的方法提高了 2.74%。此外,我們發現考慮圖像上的文本可以帶來顯著的改進。
2. 方法
??在本節中,我們首先定義多模態諷刺檢測任務。然后我們簡要介紹 BERT 模型的背景,并詳細描述我們提出的模型的架構。圖 2 概述了我們的模型。
圖2:我們提出的模型概述。預先訓練的 bert 模型對文本及其內的標簽進行編碼。ResNet用于獲取圖像表示。我們運用情態內注意來模擬文本內部的不一致性,而情態內注意來模擬文本和圖像之間的不一致性。然后將不一致性信息進行組合并用于預測。
2.1 任務定義
??多模態諷刺檢測旨在識別與圖像相關的給定文本是否具有諷刺意義。形式上,給定一組多模態樣本 D,對于每個樣本 d ∈ D,它包含一個句子 T,其中有 n 個詞 { t1, t2, t3, … . . , tn} 和相關圖像 I。我們模型的目標是學習多模態諷刺檢測分類器,以正確預測未見過樣本的結果。
2.2 背景
??語言模型預訓練已被證明可用于許多自然語言處理任務(Peters 等人,2018 年;Howard 和 Ruder,2018 年)。 BERT 是由 Devlin 等人提出的。 (2019),旨在通過對所有層的左右上下文進行聯合調節,從大型未標記數據中預訓練深度雙向表示。預訓練過程使 BERT 具有獲取文本良好表示的能力。 BERT 模型由多層雙向變壓器編碼器組成(V aswani 等,2017)。德夫林等人。 (2019) 在他們的工作中提出了兩個 BERT 模型。具有 12 個轉換器塊的基本 BERT 模型、具有 768 個隱藏單元和 12 個注意頭的前饋網絡,以及具有 24 個轉換器塊的大型 BERT 模型、具有 1024 個隱藏單元和 16 個注意頭的前饋網絡,在我們的工作中,我們應用預訓練的 Base BERT 模型來獲取文本表示。
2.3 模型架構
??我們的模型可以分為三個部分:圖像和文本處理模塊、模態間注意模塊和模態內注意模塊。
圖像和文本處理
??對于文本處理,給定一個單詞序列 X = {x1, x2, . . . , xN},其中 xi∈Rdis 是詞、段和位置嵌入的總和,N 是序列的最大長度,d 是嵌入大小。我們在其上采用預訓練的 BERT 模型來獲取文本表示。編碼后的文本可以表示為 H∈Rd?N,它是 BERT 編碼器最后一層的輸出,d 是 BERT 的隱藏大小。
??對于圖像處理,給定圖像 I,我們首先將其大小調整為 224*224 像素,然后我們使用 ResNet-152 獲得圖像的表示。具體來說,我們砍掉最后一個全連接(FC)層,得到最后一個卷積層的輸出:
??其中每個 rir_iri? 是一個 2048 維的向量,表示圖像上的一個區域。因此,圖像 I 可以表示為 ResNet(I)∈R2048?49ResNet(I) ∈ R^{2048?49}ResNet(I)∈R2048?49。最后,為了將視覺特征投影到文本特征的相同維度,我們對編碼圖像表示 ResNet(I) 進行線性變換,如下所示:
??其中 Wv∈Rd?2048W_v∈R^{d?2048}Wv?∈Rd?2048 是可訓練參數,d 是文本特征的維度。 G∈Rd?49G ∈ R^{d?49}G∈Rd?49 是視覺特征的編碼表示。
模態間注意力
??模態間不一致信息可以表示為多模態特征之間的一種相互作用。對句子和圖像區域相矛盾的給予高度關注,因為不協調是諷刺的關鍵特征。因此,我們借鑒了self-attention 的思想,設計了一個文本圖像匹配層來捕獲文本和圖像之間的不一致信息。我們的文本圖像匹配層接受文本特征 H∈Rd?NH ∈ R^{d?N}H∈Rd?N 查詢,以及圖像特征G∈Rd?49G ∈ R^{d?49}G∈Rd?49 作為鍵和值。這樣,文本特征可以引導模型更加關注不協調的圖像區域。具體來說,對于圖文匹配層的第i個head,它有如下形式:
其中 dk∈Rd/hd_k∈ R^{d/h}dk?∈Rd/h,ATTi(H,G)∈RN?dkAT Ti(H, G) ∈ R^{N?d_k}ATTi(H,G)∈RN?dk?,WiQ,WiK,WiV∈Rdk?d{W^Q_i, W^K_i, W^V_i} ∈ R^{d_k?d}WiQ?,WiK?,WiV?∈Rdk??d,可學習參數。然后將 h 個頭的輸出連接起來,然后進行線性變換,如下所示:
其中 Wo∈Rd?dW^o∈R^{d?d}Wo∈Rd?d 是一個可學習的參數。之后,對文本特征 H 和自注意力層 MATT(H, G) 的輸出進行殘差連接:
其中 LN 是 Ba 等人提出的層歸一化操作。 (2016)。之后,在 Z 上采用前饋網絡(又名 M LP)和另一個殘差連接來獲得第一個變壓器編碼器的輸出:
其中TIMlm(H,G)∈RN?dTIM_lm(H, G)∈ R^{N?d}TIMl?m(H,G)∈RN?d是第一個文本圖像匹配層的輸出。我們堆疊 lm文本-圖像匹配層并得到TIMlm(H,G)TIM_lm(H, G)TIMl?m(H,G)作為最后一層的輸出,其中TIMlm(H,G)∈RN?dTIM_lm(H, G)∈ R^{N?d}TIMl?m(H,G)∈RN?d 和 lml_mlm?一個預定義的超參數。模態間不一致的最終表示可以描述為HG∈RdH_G∈R^dHG?∈Rd,這是[CLS]標記在TIMlm(H,G)TIM_lm(H, G)TIMl?m(H,G)中的編碼。
模態內注意力
由于不一致可能僅出現在文本中(例如,與不相關圖像相關的諷刺文本),因此有必要考慮模態內的不一致。 Twitter 等社交媒體允許用戶添加主題標簽來表明主題或他們的真實想法。 Maynard 和 Greenwood (2014) 指出,在分析用戶的真實情緒時,主題標簽很有用(例如,我很高興我今天早上 5:15 醒來。# 不是)。因此,我們將原始文本和其中的主題標簽之間的矛盾視為模態內不協調(即,對于那些沒有主題標簽的樣本,我們使用特殊標記代替)。直觀上,我們可以使用與模態間注意相同的方式來獲得模態內不協調信息。然而,我們發現它即使包含更多的參數也沒有帶來太大的改進。因此,受到 Lu 等人的啟發。 (2016) 的工作,我們引入了一個親和矩陣 C 來模擬文本和主題標簽之間的交互。 C 計算公式為:
其中 H ∈ Rd?Nand T ∈ Rd?M 分別表示文本特征和標簽特征。 N 和 M 是預定義的超參數,分別表示輸入序列的最大長度和主題標簽。 Wb∈Rd?dis 是一個包含權重的可學習參數。在計算親和力矩陣 C ∈ RN?M 之后,我們最大化文本特征位置上的親和力矩陣以獲得標簽注意力。具體來說,我們通過對矩陣 C 應用列式最大池化操作來計算權重向量 a ∈ RM。 (2018) 認為應該突出導致不協調的詞(通常伴隨著高注意力價值)。因此,在我們的例子中,像最大池化這樣的更具辨別力的池化算子是可取的。最后,模態內不一致性計算如下:
其中HT∈Rd包含模態內不協調信息。
3. 實驗
??本節首先描述數據集、實驗設置、基線模型和實驗結果。然后,我們進行了一系列燒蝕實驗來驗證組件在我們的模型。之后,我們分析了文本圖像匹配層數對模型性能的影響。最后,我們給出了幾個給定的諷刺案例的模型可視化,并對錯誤預測的樣本進行了分析。
3.1 數據集
??我們在一個公開可用的多模態諷刺檢測數據集上評估我們的模型,該數據集由 Cai 等人收集。 (2019)。數據集中的每個樣本都由一系列文本和相關圖像組成。包含諷刺、諷刺、諷刺、諷刺或 URL 等詞的推文在數據預處理期間被丟棄。蔡等人。 (2019) 將數據劃分為訓練集、開發集和測試集,比例為80%:10%:10%。他們還手動檢查開發集和測試集,以確保標簽的準確性。詳細的統計數據總結在表 1 中。
3.2 基線模型
??我們將基線模型分為三類:視覺模態模型、文本模態模型和文本視覺模態模型。
- 視覺模態模型:Image-Only:圖像特征 G 直接用于預測平均池化操作后的結果。
- 文本模態模型:
TextCNN: 由 Kim (2014) 提出,是一種基于 CNN 的深度學習模型,用于解決文本分類任務。
SIARN: SIARN 是由 Tay 等人提出的。 (2018)。它采用內部注意力進行文本諷刺檢測,以克服先前序列模型(如 RNN)的弱點,這些模型無法捕獲詞對之間的交互并妨礙明確建模不協調的能力。
SMSD: 繼(Tay et al.,2018)的工作之后,Xiong et al.(2019)提出了一個自匹配網絡,通過探索詞與詞之間的交互來捕獲句子不一致信息。
BERT: BERT是Devlin等人(2019)提出的一種預訓練模型,它在許多NLP任務中實現了最先進的結果。我們認為這是一個基線調查性能增益來自伯特或我們提出的方法。 - 視覺文本模態模型:
Hierarchical Fusion Model(HFM): 蔡等人。 (2019) 提出了一種用于多模態諷刺檢測的分層融合模型。他們的模型將圖像特征、圖像屬性特征和文本特征作為三種模態。三種模態的特征被重建和融合以進行預測。
Res-bert: 我們將 Res-bert 實現為我們的基線模型之一。 Res-bert 簡單地將圖像特征 G 和文本特征 H 連接起來進行分類。
3.3 實驗設置
??我們的模型在 PyTorch (Paszke et al., 2019) 中實現,在 NVIDIA TITAN RTX GPU 上運行。預訓練的 BERT 模型可從 Hugging Face 發布的轉換工具包中獲得。2我們采用 Adam (Kingma and Ba, 2015) 作為我們的優化器,并將初始學習率設置為 5e-5,預熱率為 0.2。用于訓練的批大小固定為 32。文本的最大長度為 75,主題標簽的最大長度分別為 10。我們的模型針對 8 個 epoch 進行了微調訓練集。我們保存模型,它在驗證集上具有最佳性能。完整參數列于表 2 中
3.4 實驗結果
??我們將我們的模型與基線模型在標準指標上進行比較,包括精度、召回率、F1 分數和準確率。3 結果如表 3 所示。實驗結果表明,我們的模型在基線模型中取得了最佳性能。具體來說,與 Cai 等人提出的最先進的分層融合模型 (HFM) 相比,我們的模型在 F1 分數方面獲得了 2.74% 的改進。 (2019)。我們的模型也以 2.7% 的改進優于微調的 BERT 模型,這顯示了我們模型的有效性和圖像的重要作用。
??從表 3 中我們可以看出,僅使用圖像特征的模型表現不佳,這表明對于多模態諷刺檢測任務無法獨立處理圖像。顯然,基于文本模態的方法比基于圖像模態的方法獲得了更好的性能。因此,對于諷刺檢測,文本信息比圖像信息更有用。值得注意的是,微調的 BERT 模型的性能遠遠優于其他基于文本的非預訓練模型,這支持了我們的動機,即像 BERT 這樣的預訓練模型可以改進我們的任務。屬于 Visual Text 模態的模型通常比其他模型獲得更好的結果,表明圖像對于提高性能很有用。
??查看文本模態中的模型,SIARN(Tay 等人,2018 年)和 SMSD(Xiong 等人,2019 年)都將不一致信息納入考慮并優于 TextCNN。因此,不協調信息有利于識別諷刺。我們提出的方法比 Res-bert 取得了更好的結果,證明對模態內和模態間不協調進行建模比用于多模態諷刺檢測的簡單模態串聯更有效。
3.5 消融研究
??為了評估模型中各組件的有效性,我們進行了一系列的消融實驗。我們首先去掉通道內注意力,得到只使用HG進行預測的模型(w\o Intra)。然后,我們消除了通道間的注意,得到了無通道注意的模型。該模型將H和HT連接到分類器層,實驗結果表明,HT在我們的模型中只起到輔助作用。
??表4給出了消融實驗的結果。實驗結果表明,當同時包含通道內和通道間注意模塊時,我們提出的模型獲得了最好的性能。通道間注意力的缺失導致檢測結果的降低,證明了考慮通道之間的矛盾對于多通道諷刺檢測具有重要意義。沒有通道內注意的模型也會影響性能。因此,通道內和通道間注意在我們的模型中扮演著不可或缺的角色。
誤差分析:我們還對錯誤預測的樣本進行定性分析。我們檢查了大約50個錯誤分類的實例,發現我們的模型可能會錯誤地對包含圖像上必要文本信息的樣本進行分類(見圖5)。因此,考慮圖像上的文本可能會改進多模態諷刺檢測任務。基于這一觀察,我們進一步實現了一個實驗,其中考慮了圖像上的文本。具體來說,我們使用一個通用的字符識別API來獲取圖片上的文本,并使用共同注意矩陣來建模原始tweet和文本之間的不一致信息。表5顯示,當考慮到圖像上的文本時,我們的模型實現了顯著的改進。除此之外我們發現我們的模型在需要外部知識的情況下,例如說話人的面部姿勢或上下文信息,可能會遇到困難。因此,外部信息對于諷刺檢測也是必不可少的。
3.6 模型分析
??文本-圖像匹配層數lm的影響:我們測量模型性能對F1得分的影響,以及文本-圖像匹配層數lm從1到7的范圍。在圖4中我們可以看到,當lmequals為3時,F1得分一直增加,直到達到峰值。在這一點上,我們的模型取得了最佳的性能。然后,隨著lm的繼續增長,模型的性能開始下降。我們猜測性能會變差,可能是由于模型參數的增加,這表明添加更多的文本-圖像匹配層可能不會增強性能,反而會阻礙性能。
??模型可視化:在本節中,我們將可視化文本圖像的注意力分布。我們的模型旨在捕獲不一致信息。因此,我們的模型更可能關注圖像上的不一致區域。我們展示了從數據集中收集的幾個諷刺案例:
4. 相關工作
4.1基于文本的諷刺檢測
4.2多模態諷刺檢測
??值得注意的是,也有一些有價值的工作集中在多模態諷刺檢測。Schifanella等人(2016)首先考慮諷刺和諷刺的文本和視覺特征,并提出兩種可供選擇的框架。Mishra等人(2017年)提出了情感和諷刺分類的認知 NLP 系統。他們引入了一個框架來自動從眼動/凝視數據中提取認知特征。他們使用CNN對基于凝視和文本的特征進行編碼以進行分類。卡斯特羅等人(2019年)提出了一個新的諷刺數據集,該數據集來自電視節目。他們將文本特征、語音特征和視頻特征視為三種模式,并使用支持向量機作為分類器。Cai等人(2019)介紹了一種分層融合模型。它們將圖像特征、圖像屬性特征和文本特征作為三種模式。三種模式的特征被重建并融合用于預測。
5. 結論
??在本文中,我們提出了一種新的基于 bert 的模型,以解決現有的多模態諷刺檢測方法不考慮不一致性諷刺的問題。具體來說,我們的模型考慮了模態內和模態間的不一致性,并在公共多模態諷刺檢測數據集上實現了最先進的性能。此外,我們還進行了一系列實驗來驗證模型的有效性。最后,我們進行了錯誤分析,發現圖像上的文本對于多模態諷刺檢測是必不可少的。
總結
以上是生活随笔為你收集整理的【论文泛读】Modeling Intra and Inter-modality Incongruity for Multi-Modal Sarcasm Detection的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 蓝牙技术简介
- 下一篇: 阿里云域名申请注册与绑定