论文浅尝 | SenticNet 5: 借助上下文嵌入信息为情感分析发现概念级别的原语
Citation: Cambria E, Poria S, Hazarika D, et al.SenticNet 5: discovering conceptual primitives for sentiment analysis by meansof context embeddings[C]//AAAI. 2018.
概述
目前大部分的人工智能的研究都集中在基于統(tǒng)計(jì)學(xué)習(xí)的方法,這些方法需要大量的訓(xùn)練數(shù)據(jù),但是這些方法有一些缺陷,主要是需要大量的標(biāo)注數(shù)據(jù)而且是領(lǐng)域依賴的;不同的訓(xùn)練方法或者對(duì)模型進(jìn)行微調(diào)都會(huì)產(chǎn)生完全不同的結(jié)果;這些方法的推理過程都是黑盒的。在自然語言處理領(lǐng)域中,人工智能科學(xué)家需要減少統(tǒng)計(jì)自然語言處理領(lǐng)域和其他理解自然語言急需的領(lǐng)域(例如,語言學(xué)、常識(shí)推理和情感計(jì)算)之間的隔閡。在自然語言處理領(lǐng)域,有自頂向下的方法,例如借助符號(hào)(語義網(wǎng)絡(luò))來編碼語義;也有一種自底向上的方法,例如基于神經(jīng)網(wǎng)絡(luò)來推斷數(shù)據(jù)中的句法模式。單純地利用統(tǒng)計(jì)學(xué)習(xí)的方法主要通過歷史數(shù)據(jù)建模關(guān)聯(lián)性以此“猜測(cè)”未知數(shù)據(jù),但是建模自然語言所需要的知識(shí)遠(yuǎn)不止此。因此,本論文工作的目的就是結(jié)合人工智能領(lǐng)域中統(tǒng)計(jì)學(xué)習(xí)和符號(hào)邏輯的方法進(jìn)行情感分析任務(wù)。
模型
本論文首先設(shè)計(jì)了一種LSTM模型通過詞語替換發(fā)現(xiàn)“動(dòng)詞-名詞”概念原語(概念原語就是對(duì)常識(shí)概念的一種的抽象,概念“嘗”、“吞”、“啖”和“咀嚼”的原語都是“吃”。),為情感分析任務(wù)構(gòu)建了一個(gè)新的三層知識(shí)表示框架,SenticNet5。SenticNet5建模了普遍關(guān)聯(lián)現(xiàn)實(shí)世界對(duì)象、行為、事件和人物的內(nèi)涵和外延信息,它不是盲目地依賴關(guān)鍵詞和詞語共現(xiàn)模式,而是依賴關(guān)聯(lián)常識(shí)概念的隱含語義。SenticNet5不再單純地使用句法分析技術(shù),同時(shí)通過分析短語關(guān)聯(lián)的概念,而不是短語本身(因?yàn)槎陶Z本身經(jīng)常并不顯式地表達(dá)情感)挖掘微妙表達(dá)的情感。
圖1 上下文語境向量和詞向量生成框架
本論文聲稱是情感分析應(yīng)用中第一個(gè)提出結(jié)合符號(hào)邏輯和統(tǒng)計(jì)學(xué)習(xí)的方法。本論文的核心思想就是提出一種概念原語的,也就是使用一種自頂向下的方法泛化語義相關(guān)的概念,例如,“munch_toast”和“slurp_noodels”可以泛化成概念原語“EAT_FOOD”。這種做法背后核心的思想就是使用有限的概念上的原語描述包含情感信息的概念。
本論文工作的第一步就是挖掘概念原語,具體模型如圖1所示,該模型的核心思想就是屬于相同原語下的概念詞語跟目標(biāo)詞語在語義上關(guān)聯(lián)并且具有相似的上下文語境,舉個(gè)例子,句子“他剛剛咀嚼幾口粥”,這里的“咀嚼”和“狼吐虎咽”屬于相同的概念原語“吃”,所以這里的句子“狼吞虎咽”代替“咀嚼”也說得通。該模型左邊建模目標(biāo)詞語的左上下文和右上下文合成目標(biāo)詞語的上下文語境表示,模型的右邊建模目標(biāo)詞語的表示,基于這個(gè)模型就可以找到屬于同一原語的詞語,也就是講這些詞語聚類,然后人工標(biāo)注原語。
因?yàn)镾enticNet5是一個(gè)三層的語義網(wǎng)絡(luò)(如圖2所示),原語層包含基本的狀態(tài)和行為(狀態(tài)之間的交互),包含狀態(tài)的情感信息;概念層通過語義關(guān)聯(lián)鏈接的常識(shí)概念;實(shí)體層屬于常識(shí)概念的實(shí)例。例如,在原語層,狀態(tài)“inact”對(duì)應(yīng)情感“joy”和概念層上的形容詞概念“complete”,行為“break”對(duì)應(yīng)動(dòng)詞概念“crack”和“split”;在概念層,概念短語“repair_phone”對(duì)應(yīng)概念“repair”和“phone”;同時(shí)概念“phone”又對(duì)應(yīng)實(shí)例層上的“iPhone”。這樣我們分析“iPhone”的時(shí)候雖然本身不包含情感信息,但是跟“repair”在一起,“repair”對(duì)應(yīng)狀態(tài)原語“fix”,“fix”又轉(zhuǎn)到正面的情感“intact”,因此“iPhone”就包含了正面的情感。
圖2 原語“Intact”在語義網(wǎng)絡(luò)圖Sentic5中的片段
實(shí)驗(yàn)
實(shí)驗(yàn)部分本論文主要評(píng)估了深度學(xué)習(xí)方法的性能和SenticNet5作為知識(shí)庫在情感分析任務(wù)中的效果。從圖3,4,5的結(jié)果看來本論文的方法在兩個(gè)人物都有3%左右的提升。
圖3 對(duì)比現(xiàn)有方法和深度學(xué)習(xí)方法在原語識(shí)別上的性能
圖4 SenticNet5在Biltzer數(shù)據(jù)集上情感分析的性能
圖5 SenticNet5在Movie Review數(shù)據(jù)集上情感分析的性能
論文筆記整理:徐康,南京郵電大學(xué)計(jì)算機(jī)學(xué)院、軟件學(xué)院,講師,研究方向?yàn)樽匀徽Z言處理、情感分析、知識(shí)圖譜。
OpenKG.CN
中文開放知識(shí)圖譜(簡稱OpenKG.CN)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
轉(zhuǎn)載須知:轉(zhuǎn)載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標(biāo)題,請(qǐng)注明原標(biāo)題。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | SenticNet 5: 借助上下文嵌入信息为情感分析发现概念级别的原语的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 利用 RNN 和 CNN
- 下一篇: 郑杰 | 如何拿回我们自己的医疗数据?