ACL 2019 | 巧用文本语境信息:基于上下文感知的向量优化
「論文訪談間」是由 PaperWeekly 和中國中文信息學會社會媒體處理專委會(SMP)聯合發起的論文報道欄目,旨在讓國內優質論文得到更多關注和認可。
?
論文動機
作為典型的細粒度情感分析任務,目標-方面級別情感分析是自然語言處理領域的研究熱點之一,結合注意力機制的深度網絡模型在目標-方面級別情感分析任務中取得了令人矚目的成功,但是仍存在一些待解決問題。
本文主要解決以下兩個問題:?
1. 現有的方法在表示目標(target)和方面(aspect)時往往會脫離上下文。這種隨機初始化或不依賴于上下文的表示方法有三個弊端:1)同一個目標或方面的向量表示在表達不同情感極性的句子中沒有得到區分;2)目標不是確定實體時(例如“這個酒店”,“這個餐館”,“那部電影”等),輸入信息無法體現實體本身的價值;3)忽略了目標和方面之間的相互聯系。?
2. 目標和方面在上下文中存在重疊的關聯映射關系。在一句話中,一個目標可能會對應多個方面,而不同的方面可能會包含不同的情感極性。另一方面,在同一句話中往往會存在多個目標,所以目標和方面之間會存在錯綜復雜的對應關系。如圖 1:
句子中的“location1”和“location2”是兩個不同的目標,每一個目標會對應多個方面(Safety,Price,Transit 等),并且不同的方面可能會存在不同的情感極性。這里有一個有趣的現象,如果將“location1”和“location2”的位置交換,那么“location1”和“location2”所表達的方面和情感都會發生改變。所以,如何通過語境上下文精確推斷目標和方面的相互關系以及文本對不同方面對象表達的情感是目標-方面級別情感分析任務的主要挑戰之一。
方法
為解決上述問題,本文提出了一種結合上下文信息優化目標和方面向量表示的方法,該方法可以直接和現有基于神經網絡的目標-方面級別情感分析模型相結合(如圖 2 所示)。
因為句子中的目標是任務的基礎,然而考慮到同一個句子存在多個目標,如何針對不同目標從上下文中自動學習向量表示呢?
具體來說,我們使用一個稀疏系數向量來提取文本中與目標相關度較高的詞語,并使用這些詞語作為目標的上下文信息。通過對目標上下文詞向量的聚合獲得目標的最終表示。通過這種方法,目標的向量表示可以從上下文中自動學習,所以就算句子中的目標不是確定的實體,我們也能得到有價值的向量表示。
上下文感知的向量優化主要包含兩個部分:重新構建目標向量和微調方面向量。為了使文本詞向量里帶有目標與方面信息,此處首先將文本的詞向量序列輸入一個全連接網絡,之后利用一個階躍函數將得到的文本向量稀疏化,以此表示文本中與目標相關的詞語的掩碼。最后通過將稀疏系數向量和輸入的文本向量結合可以得到上下文相關的目標和方面表示。
在訓練過程中,1)針對目標表示,我們希望獲得的上下文相關目標向量盡量接近輸入的目標向量,2)針對方面表示,我們希望上下文相關的方面表示盡可能靠近和它相關聯的目標,遠離無關的目標。
上下文相關的目標向量表示
為了使目標表示從上下文中自動生成,所以我們將提取上下文中和目標有高度關聯的重要詞語來優化目標向量表示:
其中是優化后的目標向量表示,u' 是稀疏系數矩陣,Φ 是階躍函數,mean(·) 代表取平均值。本文將通過最小化原始目標向量和優化目標向量來學習優化信息:
其中用來控制稀疏系數矩陣稀疏度。
上下文相關的方面向量表示
在方面向量表示優化中,因為方面本身的詞語也具有一定的價值,例如方面“Price”,單從詞語本身,我們可以知道該方面涉及“價格”相關信息,所以我們保留了方面的原始向量信息。通過將方面本身的詞語和稀疏系數矩陣提取到的上下文信息結合可以得到優化后的方面向量表示:
其中 α 用來控制上下文信息對優化向量的影響程度。?
因為同一個句子中存在多個目標,而不同的目標又關聯多個不同的方面,如何區分不同目標-方面之間的相互聯系呢?為了解決該問題,對于每一個優化方面向量,我們不僅考慮它和對應目標之間的距離,同時也關注它和那些無關目標之間的距離,所以我們將目標函數分為了兩部分:
通過目標函數的兩部分作用,可以使優化后的方面向量盡可能靠近與它相關聯的目標,并遠離與它無關的目標,從而使輸入句子針對不同方面的情感信息得到有效區分。
實驗結果
從表中結果可以看出,本文提出的優化目標和方面向量表示的方法在目標識別和情感分類任務中都取得了更好的表現,這說明了上下文相關的目標和方面表示能提升模型在細粒度情感分析任務中的效果。同時我們可以發現本文提出的目標-方面向量表示可以適用于大部分基于深度學習的目標-方面文本情感分類模型。
可視化部分,本文使用了 t-SNE 對模型學習到的方面向量表示中間結果進行可視化對比實驗。從圖 3 結果可以看出,本文提出的方法能使不同方面在訓練過程中得到更好的區分,有效提升了方面向量表示的質量。
總結
本文提出了一種作用在細粒度情感分析的上下文感知目標和方面向量優化方法。實驗結果表明,該向量優化方法可以直接和現有的基于神經網絡的目標-方面級別情感分析模型相結合,并取得更好的效果。未來,我們嘗試將向量優化方法應用到其他自然語言處理任務中,并進一步改善方法的有效性和通用性。
關于作者
梁斌,哈爾濱工業大學(深圳)計算機科學與技術學院博士研究生,主要研究方向為文本情感分析。
杜嘉晨,哈爾濱工業大學(深圳)計算機科學與技術學院博士生,研究方向為文本情感計算與文本生成。
徐睿峰,哈爾濱工業大學(深圳)計算機科學與技術學院教授,研究方向為自然語言處理、情感計算、人機接口。
主辦單位
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文
總結
以上是生活随笔為你收集整理的ACL 2019 | 巧用文本语境信息:基于上下文感知的向量优化的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CVPR 2019 | 人脸照片秒变艺术
- 下一篇: 每周一起读 × 招募 | WWW 201