提高方面级情感分析的性能:一种结合词汇图和句法图的方法
?PaperWeekly 原創(chuàng) ·?作者|張咪
學(xué)校|武漢大學(xué)碩士生
研究方向|情感分析、信息抽取等
本文介紹一篇發(fā)表于 EMNLP 2020 的論文《Convolution over Hierarchical Syntactic and Lexical Graphs for Aspect Level Sentiment Analysis》,簡(jiǎn)稱 BiGCN。該工作提出了一種新穎的體系結(jié)構(gòu),其目標(biāo)在于更好地利用語(yǔ)料庫(kù)級(jí)別的單詞共現(xiàn)信息以及不同類型的句法依存關(guān)系。
為此,該文首先創(chuàng)造性地提出了句法和詞匯的概念層次,并以此為基礎(chǔ)建立了層次句法圖和層次詞匯圖,隨后設(shè)計(jì)了雙層交互式圖卷積網(wǎng)絡(luò)以充分融合層次句法和詞匯圖。論文在五個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),結(jié)果表明 BiGCN 方法達(dá)到了最佳性能。
?
論文標(biāo)題:
Convolution over Hierarchical Syntactic and Lexical Graphs for Aspect Level Sentiment Analysis
論文鏈接:
https://www.aclweb.org/anthology/2020.emnlp-main.286.pdf
代碼鏈接:
https://github.com/NLPWM-WHU/BiGCN
背景簡(jiǎn)介
ASC (Aspect-based Sentiment Classification):目的在于確定針對(duì)特定方面的情感極性。例如:great food but the service was dreadful.
給定兩個(gè)方面詞的術(shù)語(yǔ)“food”和“service”,目標(biāo)是推斷方面的情感極性:對(duì) food 是 positive,對(duì) service 是 negative。
1.1 Existing Studies
ASC 的最新進(jìn)展集中在開(kāi)發(fā)各種類型的深度學(xué)習(xí)模型上。我們簡(jiǎn)要回顧了不考慮語(yǔ)法的神經(jīng)模型,然后轉(zhuǎn)到基于語(yǔ)法的模型。
?
1.1.1 Neural models without considering syntax
不考慮語(yǔ)法模型的神經(jīng)模型主要可以分為幾種類型:基于 LSTM,基于 CNN,基于 memory 和其他混合方法。
缺點(diǎn):這些模型將句子表示為一個(gè)單詞序列,而忽略了單詞之間的句法關(guān)系,因此,此類方法很難找到遠(yuǎn)離 aspect 的意見(jiàn)單詞。
?
1.1.2 Neural models considering syntax
句法信息可以使依賴性信息保留在冗長(zhǎng)的句子中,并有助于縮短方面詞和觀點(diǎn)詞之間的距離。最近的一些研究(Zhang 等人,2019;Huang 和 Carley,2019; Sun 等人,2019)利用基于圖的模型來(lái)集成句子的句法結(jié)構(gòu),并且表現(xiàn)出更好的性能。
缺點(diǎn):盡管上述方法取得了一定的效果,但其忽略語(yǔ)料庫(kù)級(jí)別的單詞共現(xiàn)信息。對(duì)語(yǔ)法依賴的不同類型也沒(méi)有加以區(qū)分。
問(wèn)題與動(dòng)機(jī)
2.1 Task Definition
給定由n個(gè)單詞和從第(a + 1)個(gè)位置開(kāi)始、長(zhǎng)度為m的方面組成的句子 ,ASC 任務(wù)的目標(biāo)是識(shí)別句子中給定方面的情感極性,包含正面,中性和負(fù)面三種極性。
2.2 Motivations
2.1.1 頻繁出現(xiàn)的詞對(duì)代表著語(yǔ)言學(xué)中的固定搭配。
例如,在句子“food was okay, nothing special”中,單詞“nothing special”對(duì)在 SemEval 訓(xùn)練集中出現(xiàn)了 5 次,表示負(fù)極性。如果沒(méi)有這樣的全局信息來(lái)抵消“okay”的正面影響,基于語(yǔ)法的方法將對(duì)“food”做出錯(cuò)誤的預(yù)測(cè)。
?
2.1.2 每種類型的句法依存關(guān)系都表示一種特定的關(guān)系。
例如,在“i like hamburgers”中,“i like”是 nsubj(名詞主語(yǔ))關(guān)系,而“l(fā)ike hamburgers”是 dobj(直接賓語(yǔ))關(guān)系。如果 nsubj 關(guān)系和 dobjs 關(guān)系得到同等對(duì)待,我們將無(wú)法區(qū)分動(dòng)作“l(fā)ike”的主語(yǔ)和賓語(yǔ)。
2.3 Our solution
為了解決上述限制,我們提出了一種新穎的網(wǎng)絡(luò)模型,用于有效地融合詞對(duì)共現(xiàn)信息和句法依存信息。
我們建立了用于訓(xùn)練語(yǔ)料庫(kù)的全局詞匯圖,和每個(gè)句子的局部層次句法圖和局部層次詞匯圖。
(1)全局詞匯圖是我們首次提出來(lái)用于 ASC 任務(wù):對(duì)語(yǔ)料庫(kù)級(jí)別的單詞共現(xiàn)信息進(jìn)行編碼,其中節(jié)點(diǎn)是單詞,邊表示訓(xùn)練語(yǔ)料庫(kù)中兩個(gè)單詞節(jié)點(diǎn)之間的頻率。
(2)我們還在局部句法圖和詞匯圖上建立概念層次結(jié)構(gòu),以區(qū)分不同類型的依存關(guān)系或詞對(duì)共現(xiàn)關(guān)系。
圖1顯示了一個(gè)帶有其依賴關(guān)系樹(shù)的示例句子,其它現(xiàn)有模型句法圖,以及我們改進(jìn)的局部層次句法圖和獨(dú)創(chuàng)的局部層次詞匯圖。
對(duì)比圖 1(b)和(c)可以看到:現(xiàn)有句法圖的每條邊僅表示兩個(gè)節(jié)點(diǎn)之間存在關(guān)系,而無(wú)法區(qū)分各種類型的依賴關(guān)系,而我們的層次句法圖中每條邊都附加有概念層次類型的標(biāo)簽,句法概念層次包含名詞、動(dòng)詞、形容詞、副詞、其它;
圖 1(d)是我們獨(dú)創(chuàng)的局部層次詞匯圖,由于單詞頻度服從 log-normal 分布,我們將詞對(duì)按其共現(xiàn)頻度劃分成區(qū)間 ,從而形成詞對(duì)概念層次。
?
BiGCN - Architecture
我們提出的 BiGCN 模型架構(gòu)包含三個(gè)模塊,如圖 2 所示:
1)首先將全局詞匯圖和單詞序列作為輸入來(lái)獲得初始句子表示。
2)隨后引入 HiarAgg 模塊,讓局部層次詞匯圖和層次句法圖交互以精化句子表示。
3)最后通過(guò) mask 和門控機(jī)制獲得面向方面的表示,以更好地預(yù)測(cè)句子中特定方面的情感極性。
3.1 Getting Initial Sentence Representation
我們提出了兩種類型的文本表示形式改進(jìn)句子的 embedding。一種是基于我們的全局詞匯圖的 GCN embedding;另一個(gè)是基于雙向 LSTM 的 Bi-LSTM embedding。
?
首先,我們希望將語(yǔ)料庫(kù)特有的詞匯信息編碼進(jìn)句子的表示形式中。我們對(duì)全局詞匯圖執(zhí)行 GCN,獲得整個(gè)訓(xùn)練集的詞匯嵌入矩陣。然后,通過(guò)該矩陣得到序列 S 的 GCN embedding,在圖 2(a)中用 x 表示。
其次,更接近方面詞的詞匯可能會(huì)對(duì)判斷其情感做出更大的貢獻(xiàn)。我們計(jì)算從每個(gè)上下文詞到相應(yīng)方面詞的絕對(duì)距離,并獲得 S 的位置序列。S 中的每個(gè)單詞都含有預(yù)訓(xùn)練單詞 embedding 和位置 embedding。具有上述表示形式的句子 S 發(fā)送到 Bi-LSTM 層以獲得 Bi-LSTM embedding,在圖 2(a)中用 y 表示。
?
3.2 Refining Sentence Representation
以上述 GCN embedding 和 Bi-LSTM embedding 作為初始句子表示,我們進(jìn)一步利用局部層次詞匯圖和層次句法圖以獲得句子 S 的更好表示。基本思想是讓這兩個(gè)圖在經(jīng)過(guò)精心設(shè)計(jì)的 HierAgg 模塊中深入交互。
HierAgg 是一個(gè)多層結(jié)構(gòu),其中每層包括一個(gè)交叉網(wǎng)絡(luò)以融合 GCN 和 Bi-LSTM embedding,以及一個(gè)雙層 GCN 以在層次句法和局部層次詞匯圖上進(jìn)行卷積。多層結(jié)構(gòu)確保了在不同級(jí)別執(zhí)行的不同類型信息的協(xié)作。本節(jié)詳細(xì)介紹了 HierAgg 中的一層,如下圖所示。
(1)Cross Network
為了深入融合 GCN embedding(x)和 Bi-LSTM embedding(y),我們采用了簡(jiǎn)單但有效的交叉網(wǎng)絡(luò)結(jié)構(gòu)。在跨網(wǎng)絡(luò)的每一層中,我們使用以下公式更新融合的嵌入。每層中的融合嵌入將用作 Bi-level GCN 中兩個(gè)圖的輸入節(jié)點(diǎn)表示。
(2)Bi-level GCN
由于我們的局部句法圖和詞匯圖包含概念層次結(jié)構(gòu),因此普通 GCN 無(wú)法在帶有標(biāo)記邊的圖上卷積。為了解決該問(wèn)題,我們提出了一個(gè)用于合并不同關(guān)系類型的雙層 GCN。給定一個(gè)帶有兩個(gè)圖的句子,我們將使用兩個(gè)聚合操作執(zhí)行雙層卷積。
第一次聚合(低級(jí)):將具有相同關(guān)系類型的節(jié)點(diǎn)聚合到虛擬節(jié)點(diǎn),然后在 GCN? 中使用相同的歸一化隱藏特征總和作為聚合函數(shù)來(lái)獲取虛擬節(jié)點(diǎn)嵌入 。
第二次聚合(高級(jí)):將所有虛擬節(jié)點(diǎn)及其特定關(guān)系聚合在一起。使用平均聚合函數(shù)針對(duì)不同關(guān)系類型(虛擬節(jié)點(diǎn))更新目標(biāo)詞 t 的表示形式:
(3)Finally aggregated embedding
我們分別在局部層次詞匯圖和層次句法圖上進(jìn)行第一次和第二次聚合以獲得精煉的句子表示形式,將其用作下一層的輸入。
在 Hier-Agg 模塊的最后一層中,我們將 x 和 y 組合在一起以形成聚集嵌入。
3.3 Generating Aspect-oriented Representation
為了更好地預(yù)測(cè)一個(gè)方面的情感極性,我們使用門控機(jī)制以過(guò)濾面向特定 aspect 的情感信息流:
接下來(lái)在門控嵌入 h 中對(duì)非方面詞進(jìn)行 mask,并使方面詞保持不變,并且得到 zero-mask 的嵌入:
最后,我們檢索與方面單詞在語(yǔ)義上相關(guān)的重要特征,并使用自注意力機(jī)制為每個(gè)上下文單詞設(shè)置基于檢索的注意力權(quán)重,將其加權(quán)求和之后即可獲得面向方面的句子表示 z。
3.4 Model Training
我們將上述 z 輸入一個(gè)全連接層和一個(gè) softmax 層,得到樣本句 s?的預(yù)測(cè)值:
模型的訓(xùn)練目標(biāo)為最小化所有訓(xùn)練樣本的交叉熵?fù)p失,我們采用標(biāo)準(zhǔn)梯度下降算法訓(xùn)練模型:
實(shí)驗(yàn)與分析
4.1 Datasets
我們?cè)谖鍌€(gè)基準(zhǔn)數(shù)據(jù)集上評(píng)估了我們提出的模型。一種是 Twitter 數(shù)據(jù)集。它由推特帖子組成。其他四個(gè)數(shù)據(jù)集(Lap14,Rest14,Rest15,Rest16)全部來(lái)自 SemEval 任務(wù),其中包含有關(guān)筆記本電腦和餐廳的評(píng)論,其統(tǒng)計(jì)信息如下表 1 所示。
4.2 Result
我們與八種最經(jīng)典或性能最好的方法進(jìn)行了比較,其中前四種方法是具有典型神經(jīng)結(jié)構(gòu)(如注意力,LSTM,CNN,memory 和 RNN)的模型,中間的 AF-LSTM 則利用單詞共現(xiàn)信息(但是沒(méi)有表示成圖結(jié)構(gòu)),其余三種方法是基于圖和語(yǔ)法關(guān)系集成的。
我們采用 Accuracy 和 Macro-F1 作為評(píng)估指標(biāo),其結(jié)果是對(duì)隨機(jī)初始化的三次運(yùn)行結(jié)果求平均值。所有方法的比較結(jié)果顯示在表 2 中。由表 2 可知,我們提出的 BiGCN 模型在所有數(shù)據(jù)集上的 Macro-F1 得分均達(dá)到了最佳結(jié)果。
4.3 Ablation Study
為了檢查 BiGCN 模型中每個(gè)組件的影響,我們進(jìn)行了一項(xiàng)分離實(shí)驗(yàn),并將結(jié)果顯示在表 3 中。我們首先研究局部層次詞匯(M1)和句法圖(M2)的影響。然后,我們進(jìn)一步從 M1 和 M2 中刪除關(guān)系類型來(lái)顯示概念層次結(jié)構(gòu)的影響,從而得到基本的詞匯(M3)和句法圖(M4)。表 3 的結(jié)果清楚地證明了我們提出的概念層次和詞匯圖的有效性。
4.4 Case Study
為了更好地了解 BiGCN 的工作原理,我們通過(guò)三個(gè)測(cè)試示例對(duì)幾種方法進(jìn)行了對(duì)比,如下圖所示。BiGCN 對(duì)三個(gè)句子都能作出正確的判斷,其它方法則或?qū)蝈e(cuò)。其中:
由于缺少語(yǔ)法和詞匯共現(xiàn)信息,RAM 對(duì)所有三個(gè)句子都做出錯(cuò)誤的判斷。
由于相同的原因,AF-LSTM 在第一和第二句話中也會(huì)做出錯(cuò)誤的預(yù)測(cè)。
對(duì)于第三個(gè)句子,集成了語(yǔ)法的方法 TD-GAT,ASGCN 和 CDT 過(guò)于依賴解析的結(jié)果,將“great” 和 “pad”, “needed” 和 “feature”聯(lián)系到一起,從而做出了錯(cuò)誤的判斷。相反地,AF-LSTM 和我們的 BiGCN 通過(guò)利用單詞共現(xiàn)信息,能夠正確地預(yù)測(cè) cooling pad 的情感極性。
結(jié)論
本文為方面級(jí)情感分析任務(wù)提出了一種結(jié)合層次句法和詞匯圖的新型網(wǎng)絡(luò)結(jié)構(gòu)。其主要貢獻(xiàn)在于首次使用詞匯圖來(lái)捕獲全局單詞共現(xiàn)信息,其次,在局部詞匯和句法圖上建立概念層次,用于區(qū)分不同類型的依存關(guān)系或詞對(duì)共現(xiàn)關(guān)系的獨(dú)特貢獻(xiàn);最后設(shè)計(jì)了一個(gè)深度融合模塊,使得局部層次詞匯圖和句法圖能夠更好地協(xié)同工作。大量實(shí)驗(yàn)表明本文方法達(dá)到了 SOTA 的性能。
?
更多閱讀
?
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
?????來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的提高方面级情感分析的性能:一种结合词汇图和句法图的方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 炒股需要先开立股票账户,网上和线下都能开
- 下一篇: 总奖金15万,双赛道同名消歧挑战赛报名进