情感分析 | 细粒度情感分析在美团到餐场景中的应用
每天給你送來NLP技術干貨!
來自:美團技術團隊
經典的細粒度情感分析(ABSA,Aspect-based Sentiment Analysis)主要包含三個子任務,分別為屬性抽取、觀點抽取以及屬性-觀點對的情感傾向判定三個級聯任務。
本文介紹了美團到店到餐應用算法團隊通過結合學界最先進的閱讀理解、注意力機制等方面的實體抽取、情感分析經驗,解決到餐(菜品,屬性,觀點,情感)四元組抽取問題,并在多個業務場景應用落地,希望能對從事相關工作的同學有所幫助或啟發。
-
一、背景
-
二、目標回顧
-
2.1 業務問題
-
2.2 技術調研
-
2.3 技術目標
-
2.4 主要挑戰
-
-
三、細粒度情感分析實踐
-
3.1 Pipeline方法
-
3.2 聯合學習
-
-
四、在到餐業務中的應用
-
4.1 模型效果對比
-
4.2 業務應用場景
-
-
五、未來展望
一、背景
作為一家生活服務在線電子商務平臺,美團致力于通過科技鏈接消費者和商戶,努力為消費者提供品質生活。到店餐飲(簡稱到餐)作為美團的核心業務之一,是滿足用戶堂食消費需求、賦能餐飲商戶在線運營的重要平臺,在服務百萬級別的餐飲商戶和億級別C端用戶的過程中,積累了海量的用戶評論信息(User Generated Content, UGC),包含了用戶到店消費體驗之后的真情實感,如果能夠有效提取其中的關鍵的情感極性、觀點表達,不僅可以輔助更多用戶做出消費決策,同時也可以幫助商戶收集經營狀況的用戶反饋信息。
近年來,大規模預訓練模型(BERT)、提示學習(Prompt)等NLP技術飛速發展。文本分類、序列標注、文本生成各類自然語言處理任務的應用效果得到顯著提升,情感分析便是其中最常見的應用形式之一。它的任務目標在于通過NLP技術手段對輸入文本進行分析、處理、歸納、推理,給出文本情感極性判定的結果。
按照情感極性判定粒度,可以細分為篇章/整句粒度情感分析、細粒度情感分析(ABSA, Aspect-based Sentiment Analysis)[1]。一般而言,細粒度情感分析的任務目標主要圍繞屬性(Aspect Term)、觀點(Opinion Term)、情感(Sentiment Polarity)三要素展開,可以拆分為屬性抽取、觀點抽取以及屬性-觀點對的情感傾向判定三個級聯任務[2-5]。例如,對于給定的用戶評論“這家店環境不錯,但服務很糟糕”,預期的輸出結果為(環境,不錯,正向)、(服務,糟糕,負向)。
到餐算法團隊結合到餐業務供給側、平臺側、需求側的業務場景,為核心業務鏈路的智能化提供高效、優質的算法解決方案,通過算法能力輔助業務降本提效。本文結合到餐B/C端業務場景,探索細粒度情感分析技術在用戶評價挖掘方向的應用實踐。
二、目標回顧
2.1 業務問題
秉承“幫大家吃得更好,生活更好”的使命,到餐面向消費者提供包括套餐、代金券、買單、預訂等在內的豐富產品和服務,并通過黑珍珠餐廳指南、大眾點評必吃榜等榜單,以及搜索、查詢、評價等,幫助消費者更好地作出消費決策。同時,為商家提供一站式的營銷服務,幫助餐飲商戶沉淀口碑、獲取用戶、增加復購等,進而輕松管理餐廳。
隨著餐飲連鎖化加速、行業競爭格局激烈,商戶管理寬幅和難度逐步加大,商戶的經營要求更加精細,數據管理意識更加迫切。用戶歷史評論中蘊含著大量用戶消費后的反饋,是情感分析的重要組成部分,不僅能夠描述消費感受,同時也能反映出就餐環境的好壞。因此,做好情感分析有利于幫助餐飲門店提升服務質量,也能夠更好地促進消費體驗。
UGC評價分析,主要是從評論文本中挖掘出菜品、服務、食品安全(簡稱食安)等方面相關信息,獲取用戶在各個維度的細粒度情感,細致刻畫商家的服務現狀,如上圖2所示。對于餐飲商戶,菜品、服務、食安評價分析問題可以拆解如下:
-
菜品評價,主要包括用戶評論中的菜品識別、評價屬性提取、菜品觀點提取、觀點情感分類;
-
服務評價,主要包括用戶評論中評價屬性提取、服務方面觀點提取、觀點情感分類;
-
食安評價,主要包括用戶評論中評價屬性提取、食安方面觀點提取、觀點情感分類。
其中問題2和3是典型的三元組抽取任務,即識別服務或食安方面的(屬性,觀點,情感)。對于問題1,在服務、食安評價問題的基礎上,菜品評價需要識別評論中提及的菜品,相比業界四元組(屬性,觀點,屬性類別,情感)[6]抽取任務,到餐場景下主要為 (菜品,屬性,觀點,情感)四元組的識別。
2.2 技術調研
在美團內部,我們針對UGC評價分析問題,調研了相關工作成果,主要為基于MT-BERT預訓練模型開發了多任務模型,試圖解決情感分析中的ACSA (Aspect-Category Setiment Analysis)?問題以及(屬性,觀點,情感)三元組抽取問題,并實現了句子粒度的情感分類工具開發,同時開源了基于真實場景的中文屬性級情感分析數據集ASAP[7-9]。但對于美團到餐業務來說,我們需要基于具體場景提出針對性的解決方案,如四元組抽取任務,不能直接復用其他團隊的相關技術和工具,因此有必要建設服務于到餐業務場景的細粒度情感分析技術。
在業界,我們也調研了行業其他團隊如騰訊、阿里在細粒度情感分析方面的相關研究。2019年騰訊AI Lab和阿里達摩院合作[3],提出了基于兩個堆疊的LSTM和三個組件 (邊界引導、情感一致性和意見增強)的模型,將“BIOES”標注體系與情感正向 (Positive)、中性 (Neutral)、負向 (Negative)?結合形成統一標簽,可以同時識別屬性和情感。同年,阿里達摩院提出了BERT+E2E-ABSA模型結構,進一步解決屬性和情感的聯合抽取問題[10],同時提出(屬性,觀點,情感)[2]三元組抽取任務,并給出了兩階段解決框架,首先分別識別出屬性(情感融合為統一標簽)和觀點,然后判斷屬性-觀點是否配對。
自此,業界后續研究開始向三元組聯合抽取展開[11-14]。2021年2月,華為云[6]提出(屬性,觀點,屬性類別,情感)四元組抽取多任務模型,其中一個任務識別屬性和觀點,另一個任務識別屬性類別和情感。2021年4月,騰訊[15]引入Aspect-Sentiment-Opinion Triplet Extraction (ASOTE)任務,提出了一個位置感知的BERT三階段模型,解決了(屬性,觀點,情感)三元組抽取問題。
從學術界來看,更關注于如何更好地進行實體抽取、情感分類以及多任務的聯合抽取,可能會忽略工業界落地更關注的計算時效性 (如多維度標注與情感維度整合,增加計算、存儲資源消耗,在有限資源下時長延遲)、效果準確性 (如任務模塊端到端開發,忽略業務的個性化,直接復用導致準確性降低)等方面要求,導致相關技術方法并不能直接應用于業務場景,需要進一步開發完善才能實現業務的落地。
如上表所示,針對以上調研,我們借鑒了美團搜索與NLP部在三元組細粒度情感分析方面的經驗,拆解到餐四元組抽取問題,并結合學界最先進的閱讀理解、注意力機制等方面的實體抽取、情感分類經驗,設計開發了應用于到餐業務的細粒度情感分析解決方案。
2.3 技術目標
如上文所述,菜品評價主要關注菜品、評價屬性、菜品觀點和觀點情感,而服務、食安評價問題,主要關注服務或食安方面的評價屬性、觀點和情感。就細粒度情感分析任務而言,可以看出,前一個問題涉及四元組信息,而后兩個問題僅涉及三元組信息。
假設給定一個長度為的句子,令和,表示句子中標注的菜品實體、評價屬性、觀點和情感極性,其中情感包括 {正向,中性,負向,未提及}。表示句子中標注的服務或食安方面的評價屬性、觀點和情感。
對于菜品評價,訓練集為,似然函數為:
進一步,對數似然函數為:
其中,超參數。由公式可推測,四元組細粒度情感分析問題可以拆解為:給定文本的菜品實體抽取、描述菜品的評價屬性抽取、評價屬性對應的觀點抽取以及情感分類。
對于服務、食安評價,訓練集為,似然函數為:
進一步,對數似然函數為:
其中,超參數。由公式可推測,三元組問題可以拆解為:給定文本的服務或食安屬性抽取、評價屬性對應的觀點抽取以及情感分類。
特別地,公式和最后一項成立的原因是給定屬性條件下,與是條件獨立的,即:
目標是最大化對數似然函數。總而言之,基于聯合概率分布拆解,能夠將復雜問題拆分為多個簡單問題建模。基于以上分析,建立菜品、服務、食安維度等細粒度情感分析模型。算法的目標就是通過菜品評價、服務評價以及食安評價的建模,從UGC文本中挖掘用戶評論信息,如用戶消費偏好、用戶就餐環境以及場景反饋等。值得一提的是這里提到的四元組和三元組,不僅僅解決以上場景的問題,而是具有更強的泛化性,對于類似場景的細粒度情感分析也同樣適用。
在細粒度情感分析中,訓練、測試數據主要來源于UGC標注數據。其中,假設UGC文本間標注是獨立的,則任意取一定數據的UGC文本進行測試,其余標注為訓練樣本,進行模型訓練。技術評估指標是任務的準確率、召回率以及多類別平均F1值。此外,業務層面主要依賴于文本抽取標簽的Badcase率反映算法的準確性。
2.4 主要挑戰
由于三元組問題可以看作是四元組問題的子問題,不失一般性,下文將重點闡述四元組相關技術挑戰。
如圖3的示例所示,提取的四元組為“鮮蝦餡餃子-口味-特別好-正向”和“鮮蝦餡餃子-(?)-有點貴-負向”。在到餐場景中,UGC文本細粒度情感分析較復雜,主要存在挑戰:給定一條評論,可能包含多個四元組且存在實體間一對多或者多對一的關系,以及可能存在缺失情況;如何準確識別用戶所有細粒度評論情感傾向?對于以上挑戰,可以拆解為如下問題。
問題1:如何準確識別可能存在的多個四元組?
對于一條存在多個四元組的評論,通過序列標注,直接同時識別多個四元組是不現實的。為此,我們在標注數據預處理時,將評論中四元組分別抽取,各自組成一條獨立樣本,進行訓練、預測。此外,如上文所述,四元組的實體間存在一對多或者多對一的關系,而且實體間的間距通常不固定,存在遠程抽取的可能。針對這一問題,一個較有效的實踐經驗是進行分層分塊抽取,即pipeline識別。基于pipeline的方法,如公式所示,則需要分別處理:給定文本,菜品實體抽取 ()、描述菜品的評價屬性抽取 ()、評價屬性對應的觀點抽取 () 以及情感分類 ()。
定義交叉熵損失函數為:
其中,表示每個模塊真實label分布,表示分類類別數。
那么,當前問題的損失函數集合為:
其中,目標,將分別針對每一個任務進行逐個最小化。
問題2:如何解決aspect有缺失的四元組識別?
如圖3所示,真實場景可能存在四元組的評價屬性缺失。針對這類問題,我們將問題拆解為三個任務:給定評價文本,菜品實體抽取 ()、評價觀點抽取 () 以及觀點和情感的分類 () ,其中是隱藏評價屬性的類別。則損失函數為:
同上,在pipeline方法下,目標函數最下化將分別對每一個任務進行最小化。值得一提,如果aspect不存在缺失,這個解決思路實際應用仍然可行。
問題3:如何同時對四元組抽取、識別,減少pipeline方法的錯誤累計影響?
減少pipeline方法的錯誤累計影響,典型的解決方案是提出同時處理信息抽取和分類任務,即多任務學習。傳統的方法是直接嘗試多任務學習的思路,但過程中忽略了實體間依賴的關系,甚至遠程關聯關系[2]。當前也在嘗試直接將四元組轉化成多任務學習過程,將來期望通過建立實體間pair或triplet關系,進行聯合抽取、識別。
綜上,對于問題1和問題2,我們會按照pipeline識別的結果,再利用策略進行抽取結果的優化;對于問題3,整合實體、關系及分類任務,進行聯合學習,將有助于減少pipeline方法的錯誤累計影響。
三、細粒度情感分析實踐
3.1 Pipeline方法
如上文2.3的問題2所述,我們采用pipeline的方法,將四元組抽取問題拆解為三個任務,分為實體識別、觀點抽取、觀點類別和情感分類,如下圖4所示:
3.1.1 實體識別
自2018年BERT[16]出現以后,NER模型由傳統的LSTM+CRF替換為BERT+CRF(或者BERT+LSTM+CRF),一度是業界NER任務的SOTA模型,近兩年來NER任務主要從以下兩個方面進行改進:
-
加入額外的特征[17-19]:如字特征、詞特征、詞性特征、句法特征、知識圖譜表征;
-
轉換任務形式[20-21]:將NER任務轉化為問答 (QA, Question Answering)任務或者機器翻譯任務。
考慮到引入額外特征需要構建人工詞典,以及轉化問答任務形式依賴于人工模板,成本較高,因此采用BERT+CRF模型。
學習率調整,模型策略調優。在實驗過程中,我們發現BERT+CRF相比簡單的BERT+Softmax效果提升甚微,究其原因,由于預訓練模型經過微調之后可以學習到具有明顯區分度的特征,導致增加CRF層對實體識別結果幾乎沒有影響。然而,一個好的CRF轉移矩陣顯然對預測是有幫助的,可以為最后預測的標簽添加約束來保證預測結果的合理性。進一步實驗后發現,通過調整BERT和CRF層的學習率,如BERT使用較小的學習率而CRF層使用100倍于BERT的學習率 (即,如圖5所示),最終BERT+CRF的效果相比BERT+Softmax有了較明顯的提升。此外,在傳統NER模型LSTM+CRF基礎上,我們也實驗了BERT+LSTM+CRF,但效果居然有些許下降,而且預測時間也增加了,因此最終沒有引入LSTM層。
3.1.2 觀點抽取
觀點抽取任務在業界也稱為Target-oriented Opinion Words Extraction(TOWE),旨在從評論句子中抽取出給定目標對應的觀點詞。觀點抽取也可以看作是一種NER任務,但若評論涉及多個實體和觀點,如何準確抽取所有“實體-觀點”關系是一個技術挑戰。借鑒MRC(Machine Reading Comprehension)任務的思想,通過構建合理的Query引入先驗知識,輔助觀點抽取。
QA任務形式,觀點抽取建模。如圖6所示,模型整體由預訓練層和輸出層兩部分組成。輸出層我們使用了常規QA任務輸出,包括開始標簽(Start Label)和結束標簽(End Label),但需要人工設計Quey。參考論文[20]經驗,以圖3為例,實驗發現Query設計為“找出鮮蝦餡餃子口味、口感、分量、食材、賣相、價格、衛生以及整體評價”效果最好,可能融入了觀點描述信息,更加有助于觀點抽取。考慮到QA任務天然有類別不平衡的問題,因此損失函數引入針對類別不平衡的Focal Loss,用于提升觀點抽取模型的效果。由于觀點抽取也可以看作是NER任務,故我們嘗試將輸出層設計為CRF層,但實驗效果并不理想,可能由于觀點語句長度不一且比較個性化,影響模型識別。另一方面,考慮到Google中文預訓練模型BERT是以字粒度為切分,沒有考慮到傳統NLP中的中文分詞,在預訓練層我們將BERT模型替換為哈工大開源的中文預訓練模型,如BERT-wwm-ext、RoBERTa-wwm等,最終模型效果取得進一步提升。
3.1.3 觀點類別和情感分類
觀點類別和情感分類可以看作兩個分類任務,其中菜品評價四元組任務的觀點類別包含口感、口味、分量、食材、賣相、價格、衛生、菜品整體等8個標簽,而情感包含正向、中性、負向、未提及等4個標簽,都是業務預定義好的。考慮到用戶評論提及某個菜品的觀點可能涉及多個維度,若每個維度單獨建模,需要構建多個模型,較復雜且維護困難。結合ATAE-LSTM[22]和NLP中心[7-9]情感分析的經驗和到餐業務特點,模型整體結構設計為多任務多分類學習框架。
多任務多分類模型,聯合建模觀點類別和情感。如圖7所示,模型整體分為兩個部分,分別為BERT共享層和Attention獨享層,其中BERT共享層學習觀點Embedding表示,Attention獨享層學習觀點在各個觀點類別的情感傾向。考慮到評論中各部分會聚焦不同的觀點維度,通過引入Attention結構,使得模型更加關注特定維度相關的文本信息,進而提升整體效果。
3.2 聯合學習
pipeline方法的優點是將目標問題拆分為多個子模塊問題,對子模塊分別優化,通過后處理能在一定程度上解決實體間多對多關系的問題。然而,pipeline方法也會存在一些致命缺陷,主要包括:
-
誤差傳播,實體識別模塊的錯誤會影響到觀點抽取模型的性能;
-
忽略了任務之間的關聯性,如實體和觀點往往一起出現,如果可以知道觀點,那么也能判斷出所描述的實體,而pipeline方法顯然不能利用這些信息;
-
信息冗余,由于需要對識別出來的實體都要進行觀點抽取,以及提取出的觀點都要進行分類,產生一些無效的匹配對,提升錯誤率。
參考業界情感分析聯合學習現狀,主要為(屬性,觀點,情感)三元組聯合抽取。結合到餐業務場景特點(如挑戰2.3的問題2所述),整體設計為兩階段模型,第一階段為對菜品實體、觀點和情感聯合訓練,第二階段為對觀點進行分類,進而得到四元組識別的結果。
3.2.1 三元組聯合抽取
目前在學術界,三元組(屬性,觀點,情感)聯合抽取的方法主要包括序列標注方法[11]、QA方法[5,12]、生成式方法[13,14]等。結合菜品分析場景和pipeline方法中觀點抽取模塊的經驗,我們采取了QA式的聯合抽取方法,主要參考模型Dual-MRC[5]。
Dual-MRC模型的改進,三元組聯合抽取建模。在模型設計過程中,由于Dual-MRC模型分類情感傾向是對某個屬性的整體評價,即一個屬性只對應一個情感。然而,在到餐業務場景中,新增了菜品實體的識別,同時UGC評論中存在對同一個菜品實體包含不同觀點及情感傾向。如圖3所示,“味道特別好”表達了對“鮮蝦餃子”正向情感,而“有點貴”顯然表達了負面情感。因此,我們對Dual-MRC模型進行了改造,將觀點和情感標簽整合成統一標簽。如圖8所示,到餐Dual-MRC整體結構基于雙塔BERT模型,通過引入兩個Query,左邊負責抽取菜品實體,右邊負責抽取觀點和觀點情感,從而實現三元組聯合抽取。
模型結構說明:
-
整體是由兩個部分組成,左邊BERT抽取菜品實體,右邊BERT抽取觀點和觀點情感,將觀點和情感構成統一標簽B-{POS,NEU,NEG},I-{POS,NEU,NEG}以及O,其中未提及情感被整合到O標簽中;
-
參考pipeline方法經驗,構建兩個Quey,左邊Quey1構建為“找出評論中的菜品”,右邊Quey2構建為“找出鮮蝦餡餃子口味、口感、分量、食材、賣相、價格、衛生以及整體評價”;
-
訓練階段,對于左邊標注的每個菜品實體,都需要重復右邊流程,兩邊模型共享參數進行訓練;預測階段,由于實體不可知,采用pipeline方式,首先左邊部分抽取出所有的菜品實體,然后對于每個實體輸入到右邊部分,抽取出觀點和觀點情感。
在此基礎上,我們也探索了四元組聯合抽取的可能,具體操作為對右邊Query2進行改造,如“找出鮮蝦餡餃子口味評價”,對于每個觀點類別都需要構建Query進行預測,從而實現四元組聯合抽取。但考慮計算量級較大且耗時較長,最終將觀點類別另做預測。
3.2.2 觀點類別分類
觀點類別分類,顯然是一個文本分類問題,通常做法是基于BERT分類,取[CLS]位置的Embedding,接一個全連接層和Softmax層即可。在到餐業務場景中,主要面臨少樣本問題,參考業界NLP少樣本解決方法,以基于對比學習的R-drop[23]方法和基于Prompt[24]的第四范式為代表。我們在BERT模型結構基礎上,分別實驗了Prompt模板方法(如圖9所示)和R-drop數據增強 (如圖10所示)。其中,Prompt模板主要借鑒P-tuning[25]的思想,采取自動化構建模板的方式,基于MLM任務解決問題。
圖9中[u1]~[u6]代表BERT詞表里邊的[unused1]~[unused6],即使用未出現的Token構建模板,Token數目為超參數。實驗結果發現,基于BERT的預訓練模型,結合P-tuning或R-drop結構,分類效果都能得到一定的提升,且P-tuning的效果略優于R-drop,后續還會持續探索少樣本解決方法。
四、在到餐業務中的應用
4.1 模型效果對比
利用到餐的UGC標注數據,對于四元組識別進行了整體效果測評,最終以整體四元組的精確率和召回率計算F1值作為性能評估指標。如圖11所示,采用經典的BERT+CRF模型進行實體抽取,在到餐評論標注數據僅達到0.61的F1,經過學習率等調參 (Baseline Tuning)優化之后,F1值提升2.61%。如上文所述,在觀點抽取模塊中,將序列標注問題轉化成問答(QA)問題后,采用BERT+MRC模型,F1顯著提升至0.64,提升了5.9%,表明問題轉化獲得較大收益。此外,采用哈工大中文預訓練BERT仍取得一定幅度的提升,F1提升至0.65。注意,圖11中的模型迭代表示四元組問題中重點優化模塊的模型,最終評測四元組整體效果來進行對比分析。
4.2 業務應用場景
品牌儀表盤
品牌儀表盤作為旗艦店能力的重要環節,提供品牌層面的數據服務,助力生意增長。產品定位為頭部餐飲品牌的數據中心,具備基礎的數據披露能力,通過量化業務效果,指導商戶經營決策。由于大客在平臺沉淀了豐富的線上信息(大量的交易/流量/評論數據),可挖掘分析空間較大。應用細粒度情感分析技術從評論數據中挖掘菜品維度、服務維度、食品安全維度相關信息,量化商戶經營表現,指導經營動作。關于菜品的用戶反饋監控,品牌商戶更關注菜品、口味、口感等維度的用戶反饋。如上文所述模型迭代后,菜品情感、口味情感、口感情感識別準確率都得到一定的提升。
到餐商戶菜品信息優化
隨著到餐加強了菜品信息建設,主要包括在生產層面上,整合了商戶各來源菜品數據,建設了商戶菜品中心,并優化了C端菜品UGC上傳功能,有效補充UGC菜品生產;在消費層面上,整合了商戶通菜品和網友推薦菜菜品,并基于菜品信息的完善,優化了C端菜品信息的內容聚合及展示消費。同時配合到餐業務,持續通過評價信息生產建設賦能,更多的引導用戶從評價生產層面進行商戶菜品的描述介紹。主要針對到餐商戶菜品關聯的評價信息,進行信息聯動與展示層面的優化,相比迭代前,有評價菜品覆蓋率得到較大的提升。
開店寶評價管理
商家通過提供餐飲服務來獲取用戶,用戶消費后通過評價給商家以反饋,促使商家去不斷優化,提供更好的服務,從而獲取更多的用戶,達到正向循環。評價分析的意義在于建立起評價和餐飲服務之間的通道,實現評價對服務的正向促進循環。通過分析評價內容,幫助商家發現餐廳在菜品、服務、環境等方面,做得好和做得不好的地方,進而針對性的改善。相比迭代前,菜品、服務、環境維度關聯評論數得到很大的提升。
五、未來展望
經過近一年的建設,情感分析相關能力不但成功應用到到餐商戶經營、供應鏈等業務,而且優化了多源菜品信息,輔助品牌商戶進行用戶反饋監控,提升商戶服務能力。在聯合學習探索上,目前主要將四元組問題轉化為兩階段模型,如圖11所示,F1值有所下降,僅達到0.63。究其原因,可能是在三元組聯合抽取模型中,忽略了實體間的關系,尤其長程關系 (如上文2.4的問題3所述),導致性能不足預期。接下來,將進一步提升情感分析四元組抽取能力,挖掘UGC中用戶的核心需求以及重要反饋。在技術方面,將持續進行模型迭代演進,主要涉及:
-
持續優化現有模型,保證質量的同時也要提升效率
實驗結果還有很大的改進空間,需要進一步探索模型優化方法,如優化預訓練模型,使用MT-BERT等,以及在聯合抽取中進一步引入實體間關系,來提升四元組抽取的性能。
-
深度探索情感分析領域,建設四元組聯合抽取模型
主要通過改造Query實現四元組抽取,但是計算量級較大,需要探索模型結構優化,減少冗余的計算量,使其滿足四元組聯合抽取。
-
建設細粒度情感分析通用框架
到餐場景涉及多個情感分析場景,需要建設靈活方便的通用框架,有助于快速支持業務,以及減少資源消耗。
未來,團隊將持續優化應用技術,解決到餐業務場景中的情感分析需求。細粒度情感分析是具有挑戰和前景的任務,到店餐飲算法團隊將和各位讀者共同持續探索和研究。
六、參考文獻
[1] Liu, B. 2012. Sentiment analysis and opinion mining. Synthesis lectures on human language technologies 5(1):1–167.
[2] Peng, H. Xu, L. Bing, L. Huang, F. Lu, W. and Si, L.2020. Knowing What, How and Why: A Near Complete Solution for Aspect-Based Sentiment Analysis. In AAAI, 8600–8607.
[3] Li, X. Bing, L. Li, P. and Lam, W. 2019a. A unified model for opinion target extraction and target sentiment prediction. In AAAI, 6714–6721.
[4] Zhao, H. Huang, L. Zhang, R. Lu, Q. and Xue, H. 2020. SpanMlt: A Span-based Multi-Task Learning Framework for Pair-wise Aspect and Opinion Terms Extraction. In ACL, 3239–3248.
[5] Y. Mao, Y. Shen, C. Yu, and L. Cai. 2021. A joint training dual-mrc framework for aspect based sentiment analysis. arXiv preprint arXiv:2101.00816.
[6] 華為云細粒度文本情感分析及應用.
[7] 楊揚、佳昊等. 美團BERT的探索和實踐.
[8] 任磊,步佳昊等. 情感分析技術在美團的探索與應用.
[9] Bu J, Ren L, Zheng S, et al. ASAP: A Chinese Review Dataset Towards Aspect Category Sentiment Analysis and Rating Prediction. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2021.
[10] Xin Li, Lidong Bing, Wenxuan Zhang, and Wai Lam. Exploiting BERT for end-to-end aspect-based sentiment analysis. In W-NUT@EMNLP, 2019.
[11] Xu, L. Li, H. Lu, W. and Bing, L. 2020. Position-Aware Tagging for Aspect Sentiment Triplet Extraction. In EMNLP, 2339–2349.
[12] Chen, S. Wang, Y. Liu, J. and Wang, Y. 2021a. Bidirectional Machine Reading Comprehension for Aspect Sentiment Triplet Extraction. In AAAI.
[13] Yan, H. Dai, J. Qiu, X. Zhang, Z. et al. 2021. A Unified Generative Framework for Aspect-Based Sentiment Analysis. arXiv preprint arXiv:2106.04300.
[14] Wenxuan Zhang, Xin Li, Yang Deng, Lidong Bing, and Wai Lam. 2021. Towards Generative Aspect-Based Sentiment Analysis. In ACL/IJCNLP 2021, 504–510.
[15] Li Yuncong, Fang Wang, Zhang Wenjun, Sheng-hua Zhong, Cunxiang Yin, & Yancheng He. 2021. A More Fine-Grained Aspect-Sentiment-Opinion Triplet Extraction Task. arXiv: Computation and Language.
[16] Devlin, J. Chang, M.-W. Lee, K. and Toutanova, K. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In NAACL-HLT, 4171–4186.
[17] Yue Zhang and Jie Yang. 2018. Chinese ner using lattice lstm. arXiv preprint arXiv:1805.02023.
[18] Li, X. Yan, H. Qiu, X. and Huang, X. 2020. FLAT: Chinese NER Using Flat-Lattice Transformer. arXiv preprint arXiv:2004.11795 .
[19] Tareq Al-Moslmi, Marc Gallofré Oca?a, Andreas L. Opdahl, and Csaba Veres. 2020. Named entity extraction for knowledge graphs: A literature overview. IEEE Access 8 (2020), 32862– 32881.
[20] X. Li, J. Feng, Y. Meng, Q. Han, F. Wu, and J. Li. 2020. A unified MRC framework for named entity recognition. In ACL, 5849–5859.
[21] Jana Strakova, Milan Straka, and Jan Hajic. 2019. Neural architectures for nested ner through linearization. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 5326–5331.
[22] Yequan Wang, Minlie Huang, Li Zhao, and Xiaoyan Zhu. 2016. Attention-based lstm for aspect-level sentiment classification. In Proceedings of the conference on empirical methods in natural language processing, 606–615.
[23] Liang X, Wu L, Li J, et al. R-Drop: Regularized Dropout for Neural Networks[J]. arXiv preprint arXiv:2106.14448, 2021.
[24] P. Liu, W. Yuan, J. Fu, Z. Jiang, H. Hayashi, and G. Neubig. 2021. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. arXiv preprint arXiv:2107.13586.
[25] X. Liu, Y. Zheng, Z. Du, M. Ding, Y. Qian, Z. Yang, and J. Tang. 2021. Gpt understands, too. arXiv preprint arXiv:2103.10385.
七、術語解釋
八、作者介紹
儲哲、王璐、潤宇、馬寧、建林、張琨、劉強,均來自美團到店事業群/平臺技術部。
投稿或交流學習,備注:昵稱-學校(公司)-方向,進入DL&NLP交流群。
方向有很多:機器學習、深度學習,python,情感分析、意見挖掘、句法分析、機器翻譯、人機對話、知識圖譜、語音識別等。
記得備注呦
整理不易,還望給個在看!
總結
以上是生活随笔為你收集整理的情感分析 | 细粒度情感分析在美团到餐场景中的应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 简而言之SPIFFE
- 下一篇: glassfish发布应用_WildFl