总结和展望:情感分析研究的新视野
作者:Caroline Brun? ? ?編譯:ronghuaiyang
導讀
本文對情感分析研究領域做了非常好的總結和展望。
假新聞、受歡迎程度、健康狀況、金融和社會風險:情感分析正在幫助理解這一切。甚至可能引導我們理解為什么。。。
人們從一開始就對彼此的觀點感興趣,這是很自然的。然而,分析觀點的科學工作可以追溯到20世紀初,當時人們試圖從問卷中獲取、分析和量化公眾意見。與此同時,學術期刊“Public Opinion Quarterly”于1937年出版。然而,正是社交媒體平臺的出現(xiàn)和采用導致了“情感分析”研究領域的誕生,以分析這種大規(guī)模的在線非結構化意見資源。
一般來說,情感分析利用文本分析來獲取公眾意見。它是自然語言處理(NLP)最有吸引力的用例之一,業(yè)界和學術界對此都很感興趣。在情感分析中,基于nlp的數(shù)據(jù)挖掘過程和技術被應用于從用戶生成內(nèi)容(UGC)中提取和分析主觀信息,其中大部分來自社交媒體(因為社交媒體太多了)。
它允許你衡量對某些產(chǎn)品、人或想法的情感(意見,但也包括情感)。情感分析傳統(tǒng)上是關于意見的極性,即一個人是否對某人或某事有積極的、中立的或消極的看法,但它也可以是關于一個人或物體的特定方面。
它的流行自然源于它的廣泛用途。客戶服務、商業(yè)智能和產(chǎn)品或品牌聲譽管理等商業(yè)應用尤其突出。在醫(yī)療保健領域,它可以用于檢測藥物不良反應的異常。它可以幫助監(jiān)控金融市場的犯罪活動或情緒,但也可以衡量公眾如何看待政治候選人。
如今,任何事件都可以在社交媒體上以閃電般的速度發(fā)布、查看、評論和分享,潛在的數(shù)百萬人都可以參與其中。情感分析是一個重要工具,可以幫助人們理解所有事件,并在必要時做出反應。
情感分析是如何隨著時間演變的
隨著社交媒體渠道的發(fā)展,情感分析的研究任務和方法也在不斷增加。在它的初期,情感分析僅僅是給英語語言的客戶評論分配一個全局的,全面的極性標簽(積極的,消極的,有時是中立的)。現(xiàn)階段的研究包括了句子級別的主題檢測,基于不同aspect的情感分析,在比喻型語言上的情感分析,基于主題的極性分類,事件的隱性的的極性分類,比如在沒有顯式的極性標記被提起的情況下,識別“pleasant”或者“unpleasant”事件。情感分類,現(xiàn)在更多的是在一個寬泛的多樣的語言上和多種媒體資源上(使用Twitter數(shù)據(jù)已經(jīng)成為必須品的了)進行立場的檢測和論據(jù)的挖掘。任務的定義隨后發(fā)展為更復雜的挑戰(zhàn),其中主觀性、極性識別和意見挖掘已經(jīng)使用細粒度的aspect和基于主題的預測變得更加豐富了。極性這個概念已經(jīng)被心理學研究中定義的情感模型所補充。
情緒分析的方法、算法和資源也在不斷發(fā)展。現(xiàn)有的研究已經(jīng)產(chǎn)生了許多不同任務的技術,包括監(jiān)督和非監(jiān)督的方法。在監(jiān)督環(huán)境下,早期的論文使用了各種監(jiān)督機器學習方法(如支持向量機、最大熵、樸素貝葉斯等)和特征組合。非監(jiān)督方法包括利用情感詞匯、語法分析和句法模型的方法。近年來,深度學習在其他領域的成功和普及導致了它在情緒分析中的應用,經(jīng)常使用詞嵌入來表示輸入文本。
在情感分類方面,遞歸神經(jīng)網(wǎng)絡(RNN)特別是長短時記憶(LSTM)網(wǎng)絡及其捕獲長距離依賴關系的能力已經(jīng)取得了極性分類的最新成果。注意力模型也已經(jīng)被證明可以提供有趣的結果,因為它們可以捕獲句子中有關aspects的重要信息。
NLP與深度學習方法并存。經(jīng)典的NLP方法利用語言先驗知識來降低監(jiān)督水平,以保證在包括情感分析在內(nèi)的各種任務上的準確性。深度學習方法的主要缺點是需要大量帶標注的數(shù)據(jù)。這意味著一定的成本,特別是對于復雜和結構化的語義。鑒于這一點,當前的研究趨勢提倡整合先驗語法知識用到深度學習架構中用于文本分析,還有一些工作得到了情感分析方面的有趣的結果。
長期存在的挑戰(zhàn)和新的領域
盡管在情感分析上,越來越多的研究取得了進展,但處理文本中的“‘a(chǎn)ffective phenomena”,如主體性、aspects、情感、情緒、語氣、態(tài)度和感受,已被證明是一個復雜的、跨學科的問題,遠遠沒有得到解決。必須考慮許多參數(shù),如作者的個人資料、文本類型、樣式、域、文檔來源、目標語言和最終應用的目標。公開的實驗結果(通常在相對有利的環(huán)境中獲得)與系統(tǒng)在真實環(huán)境中獲得的結果之間也存在差距。
自然語言
準確的情緒分析的主要障礙一直是自然語言,現(xiàn)在仍然是,原因有很多。
自然語言是模糊的,詞可能有不同的極性方向,這取決于上下文和領域。例如,形容詞“predictable”在描述電影結尾時可能是否定的,但在描述產(chǎn)品質量時可能是肯定的。
為了表達自己的觀點,人們經(jīng)常使用形象化的語言,如反諷和諷刺。這些對于NLP來說是極具挑戰(zhàn)性的任務,在這些任務中,機器學習方法很容易被具有強烈極性的詞匯誤導,但這些詞匯卻被諷刺地使用(意思是相反的極性是有意的)。
否定(虛假性的表達)和模態(tài)(必然性、可容許性和概率的表達,例如"應該是"或"可能是")是復雜的語言現(xiàn)象,它們對表達觀點時所使用的表達方式的語義有很大的影響。處理否定的場景和的模態(tài)在情感分析中尤為重要。
理解上下文是理解觀點的必要條件。指代消解,即分辨代詞或名詞短語所指的人或物,是NLP技術面臨的一個眾所周知的挑戰(zhàn),也是理解觀點的重要一步。
最后,UGC中充斥著隱含情緒(事實性表達,暗示積極或消極情緒),例如“She is still looking for another Oscar nod. Not here though”中暗含推理的語句。這些表達與可用的和不可用的事實或行為有關,但不要使用自以為是的詞匯,這意味著很難自動捕獲它們。
挑戰(zhàn)性的任務
情感分析在本質上是具有挑戰(zhàn)性的,但人們對其他相關任務的興趣越來越大,而這些任務可能會更加困難。
基于aspect的情感分析 (ABSA)旨在捕捉用戶生成的評論中對產(chǎn)品、電影、公司等實體的不同方面所表達的情感。Aspect是一個實體的屬性,例如手機屏幕(相對于它的重量或大小等),餐館的服務(相對于位置或價格等),或相機的圖像質量等。它可以由與實體相關聯(lián)的本體來描述。ABSA意味著識別一個實體的不同aspect以及相應的情感。特別是隨著SemEval挑戰(zhàn)賽致力于這個方面,對這個任務的興趣最近有所增加。除了基本的基線檢測之外,它正成為情感分析的“標準”任務。我們開發(fā)的一個ABSA系統(tǒng)獲得的結果在2016年SemEval挑戰(zhàn)賽的最佳結果。我們現(xiàn)在將它集成到地圖搜索引擎中,以創(chuàng)建感興趣點的感知地圖搜索。我們也調(diào)查了ABSA在最終的應用設置上的評價,并為此創(chuàng)造了一個新的ABSA標注數(shù)據(jù)集(基于FourSquare數(shù)據(jù)),可以從這個網(wǎng)站(http://www.europe.naverlabs.com/Research/Natural-Language-Processing/Aspect-Based-Sentiment-Analysis-Dataset)下載。
情緒分析,檢測并識別文本中的情緒類型,如憤怒、厭惡、恐懼、快樂、悲傷和驚訝。根據(jù)美國心理學家Paul Ekman和Wallace V. Friesen的理論,這六種基本情緒是最廣泛使用的。這里最大的挑戰(zhàn)之一是,在大多數(shù)情況下,情緒是隱含在文本中的,例如,一個句子中可能有“憤怒”的元素,但是沒有使用“憤怒”這個詞或它的任何同義詞。再加上沒有標注過的文本數(shù)據(jù),這使它變得更加困難。目前通常使用標準的分類技術,結合WordNet Affect或SentiWordnet等資源,輔以隱含情緒獲取常識知識。
垃圾內(nèi)容和虛假檢測:虛假評論和虛假新聞是一個緊密相關的現(xiàn)象,它們都是由寫作和傳播虛假信息或信仰組成的。這里最大的挑戰(zhàn)是缺乏一種有效的方法來區(qū)分真實的評論和虛假的評論。即使是人類也很難分辨出其中的區(qū)別。再一次,我們面臨著嚴重缺乏ground truth數(shù)據(jù)集來幫助我們。大多數(shù)方法關注于評論的內(nèi)容(評論的長度、特定的詞匯、詞性等)和評論者的行為(如發(fā)表時間、發(fā)表頻率、文章的第一審稿人等)。
多語種情感分析 目前大多數(shù)的情緒分析系統(tǒng)通常只涉及英語,但網(wǎng)上的意見存在于更多的語言。只使用一種語言的情緒分析工具會極大地增加丟失用其他語言編寫的重要信息的風險。為了解決這一難題,目前的方法主要是將極性信息與多語言詞嵌入相結合。
多模態(tài)情感分析 隨著社交多媒體的普及,多模態(tài)情感分析將帶來新的機遇,它將整合其他互補的數(shù)據(jù)流,如面部和聲音的顯示和表達,往往以一種非常有力的方式表達情感。這樣做不僅能改進基于文本的情緒分析,甚至還能超越它。難點在于如何在真實環(huán)境中提取視覺情感(低分辨率、主體運動),以及如何從音頻文本中可靠提取語言和副語言特征。
實時情感分析:全球每秒鐘都會產(chǎn)生大量的實時數(shù)據(jù),其中大部分是非結構化的文本消息。如果我們能夠實時分析這些數(shù)據(jù),我們不僅能快速發(fā)現(xiàn)問題的答案,還能解決實時問題。這將需要專門的預處理或分布式架構的開發(fā),這些架構本身就致力于在線分析算法。
最后,論點挖掘是未來情感分析技術最具挑戰(zhàn)性的方向之一。情感分析是了解用戶對某些方面的看法,論證的目的是找出這些看法產(chǎn)生的原因和整體的推理路徑。
主要目標是從通用文本語料庫中自動提取參數(shù),為參數(shù)和推理引擎的計算模型提供結構化數(shù)據(jù)。從理論上講,論點挖掘可以發(fā)現(xiàn)知識,使我們能夠發(fā)現(xiàn)一般觀點的“正當性”,例如(為什么人們會這樣想),為復雜的政治問題生成細粒度的辯論圖,或者改進一般觀點挖掘算法。論點挖掘與另一個新興的任務立場分類高度相關,其(更簡單的)目標是確定評論的作者是否支持評論的(通常)有爭議的目標主題。挖掘論證是一項極具挑戰(zhàn)性的任務,因為它需要大量的常識、全局知識、領域知識和上下文知識。人們提出了許多論證模型,并將其應用于自動識別,它們是文本論證標注的基礎。
近年來,深度學習模型被廣泛地應用于模型上下文的論證挖掘中,對全局知識的獲取有很大的幫助。然而,這些模型在自動從文本數(shù)據(jù)獲取常識和全局知識方面存在局限性。論證挖掘在某些方面可以看作是情感分析的一種演變:意見挖掘的目的是了解人對某事的看法,而論證挖掘的目的是了解為什么,即挖掘人的正反論點,從而揭示推理過程。
情感分析是自然語言處理中最活躍的研究領域之一,但它還遠遠沒有成為一個可以解決的問題。它涉及對詞匯、句法和語義規(guī)則的深刻理解,并結合背景知識。在大數(shù)據(jù)背景下,自然語言的內(nèi)在復雜性和新的具有挑戰(zhàn)性的情感分析任務意味著,在情感語言理解方面存在著比以往任何時候都更引人入勝的研究視角。我發(fā)現(xiàn)最鼓舞人心的是一些復雜的問題,如檢測隱性的情緒、能夠處理多種語言、欺騙檢測、實時事件分析以及自動獲取常識、全局和上下文知識。
—END—
英文原文:https://europe.naverlabs.com/blog/new-horizons-in-sentiment-analysis-research/
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習在線手冊深度學習在線手冊AI基礎下載(pdf更新到25集)本站qq群1003271085,加入微信群請回復“加群”獲取一折本站知識星球優(yōu)惠券,請回復“知識星球”喜歡文章,點個在看
總結
以上是生活随笔為你收集整理的总结和展望:情感分析研究的新视野的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 这群工程师,业余时间将中文 NLP 推进
- 下一篇: 【白话机器学习】算法理论+实战之支持向量