ICML 2020 | 基于类别描述的文本分类模型
論文標題:
Description Based Text Classification with Reinforcement Learning
論文作者:
Duo Chai, Wei Wu, Qinghong Han, Fei Wu and Jiwei Li
論文鏈接:
https://arxiv.org/pdf/2002.03067.pdf
收錄情況:
ICML 2020
一般來說,模型越深效果越好。但是同時,模型越深也更難訓練——即無法收斂到訓練集上一個好的值。
今天,我們給大家介紹近期香儂科技被ICML2020接受的的一篇文章:基于類別描述的文本分類模型。
該模型的主要思想是:通過顯式地引入對分類標簽的描述提高文本分類的效果。我們提出了三種方法引入這種描述:
模板法——對每個標簽靜態地指定一個描述;
抽取法——對每個標簽在輸入文本中抽取一段文字作為描述;
生成法——動態地根據輸入的文本為每個標簽生成一段描述。
使用這種技術,我們能夠在單標簽文本分類、多標簽文本分類和多角度情感分析任務的10個數據集上取得顯著更好的效果。
文本分類中的標簽
文本分類是自然語言處理中非常重要的一項任務,它要求模型判斷輸入文本的類別,如情感、評分、類型等。
從分類數量上說,分為單標簽分類和多標簽分類,前者指每個文本只有一個標簽類,后者指每個文本可以有多個標簽類。
從任務類型講,可以分為文檔分類、情感分析等,前者指對整個輸入文本分類(可以是單標簽或多標簽),后者指對文本的多種情感判斷類別。
經典的文本分類方法是把待分類標簽視為簡單的下標。如當前的輸入文本是“這個電影真好看”,需要分類的標簽是{1:積極,0:消極},模型接受文本之后,輸出的是0或者1,代表分類結果。
顯然,用這種分類方法,模型完全無視了“積極”和“消極”的語義,對更復雜標簽,這無疑是一種“語義浪費”。我們想要把標簽提供的信息利用起來。
鑒于此,我們提出在輸入文本的同時,也輸入對標簽本身的描述,比如牛津詞典對“positive”的定義(描述)是:“full of hope and confidence, or giving cause for hope and confidence”。
把這個描述和原始文本拼接在一起,送入模型,模型輸出一個概率值,代表當前文本具有該標簽類的可能性。如此,我們就能充分利用標簽本身提供的語義。
但是如果待分類文本的標簽數很多(甚至上百個標簽),一個一個為他們人工構造描述也是件麻煩的事情,況且人工構造的也不一定“準確”。
為此,我們期望模型能動態地、根據輸入句子的不同自動構造出一個描述來。
因而,我們又提出了兩種方法:抽取文本中的一段作為描述,和使用一個語言模型從頭生成一段描述。這兩種方法都可以使用強化學習得以實現。
這三種方法的一個例子如下。對當前輸入的文本,我們現在要去判斷它是否屬于“car”這個標簽,而“car”的模板描述、抽取描述和生成描述分別如圖所示。
這種基于標簽描述的方法有以下好處:
融入了標簽語義,而不僅僅是簡單的下標,使得模型更好地進行分類;
可以很輕松地進行多分類,只需要一個一個判斷標簽即可;
得到標簽描述具有一定的靈活性,不限于人工定義的標簽描述。
用這種方法,我們能夠在單標簽分類數據集AGNews, 20news, DBPedia, Yahoo, YelpP,IMDB,多標簽分類數據集Reuters,AAPD,和多方面情感分析數據集BeerAdvocate,TripAdvisor取得顯著更好的效果。
使用強化學習來學習標簽描述
下面的問題是:對每個標簽和每個輸入,如何得到該標簽的描述。模板法(Tem.)不必多說,我們簡單使用維基百科的定義作為模板。
由于我們沒有顯式提供每個標簽應該抽取或生成怎樣的描述,我們自然想到使用強化學習。
?| 抽取式模型(Ext.)
首先我們來看如何從文本中抽取一段作為標簽描述。設輸入文本是,對每個標簽,我們要構造一個描述,這個描述是輸入文本中的一段,記為。這就等價于選取一個初始下標和一個終止下標,可以參數化為:
就是對標簽,從文本中選取下標作為起始下標的概率;而就是選取為終止下標的概率。這樣,把這兩個相乘,就得到了選取整個文本段作為描述的概率:
在選取了描述之后,就把描述和文本拼接起來一起送入模型,讓模型輸出一個概率值,判斷文本是否具有該標簽,這就可以作為強化學習中的獎勵(Reward),記為。如此一來,我們就可以用REINFORCE算法去更新參數:
?| 生成式模型(Abs.)
同樣地,生成式模型使用一個序列到序列的模型去從頭生成描述,而不是從輸入文本中選取下標。
具體地說,對每個標簽,我們使用一個公有的序列到序列模型生成它的描述:
對不同的,我們在編碼端和解碼端的每一步額外添加一個標簽表示向量。
和抽取式模型不同,生成式模型每次的?行為(Action)?是從詞表中選取一個詞,而詞表往往非常大,這就可能導致方差變大,使得訓練不穩定。
為此,我們使用REGS——Reward for Every Generation Step去緩解這個問題。
在REINFORCE里,一個句子的reward在生成結束之后才能得到,換句話說,對解碼端的每一步,它們收到的reward是相同的。
而在REGS里,我們使用一個判別器,對每一步賦予不同的reward:
序列到序列模型使用標簽模板初始化(即將文本作為輸入,將標簽模板作為輸出)。
實驗
為了驗證該方法的有效性,我們在三類文本分類任務上實驗:單標簽分類、多標簽分類和多方面情感分析。
單標簽分類指每個輸入文本只有一個標簽。數據集有AGNews, 20newsgroups, DBPedia, YahooAnswers, YelpReviewPolarity, IMDB。
多標簽分類指每個輸入文本可能有多個標簽。數據集有Reuters, AAPD。
多方面情感分析指輸入文本可能涉及多個方面,每個方面需要分類各自的標簽。數據集有BeerAdvocate和TripAdvisor。
我們的基線模型主要有LSTM和BERT-base。我們同樣使用BERT-base作為主干模型。
下表是在單標簽分類任務上的結果(錯誤率,越小越好)。首先可以看到,基于標簽描述的方法都優于BERT-base;其次,抽取式和生成式的描述生成方法平均優于基于模板的方法。
下表是多標簽分類任務上的結果,基于標簽描述的方法具有顯著更小的F1錯誤率。
然后是多方面情感分析任務的結果。和BERT-base相比,我們的方法可以取得大幅度的提高,這是因為我們能從若干的情感方面中針對每個不同的方面,從文本中提取關于它的最重要信息,而不是一次性考慮所有的方面。
接下來看看如果我們把模板法中的模板替換會有怎樣的變化。
具體地,我們嘗試了四種不同的模板:下標(類似最傳統的方法,把每個標簽視為一個字符串似的數字,如"one","two")、關鍵詞(把每個標簽描述為單個關鍵詞)、關鍵詞拓展(把每個標簽用多個近義的關鍵詞描述)和維基百科定義(本文的方法)。
結果如下表所示:
顯然,下標模板和傳統方法沒有區別,而其他方法都有所提升;多個關鍵詞好于單個關鍵詞,而更完備的描述(如維基百科定義)會提供更豐富的標簽語義信息,故得到最好的效果。
下面再來看看文本長度、訓練集大小和收斂速度的影響。如下圖所示,我們不難得到以下結論:
隨著文本長度的增加,原始方法(BERT)的效果迅速下降,而使用標簽描述的方法由于標簽本身具有的語義,模型的效果比BERT顯著更好;
訓練集越小,各模型效果越差,但相比BERT,基于標簽描述的方法具有更好的小樣本表現,這說明基于標簽描述的方法在小樣本上有更好的泛化能力;
模板法由于提供的是靜態的標簽描述,故模型能夠快速收斂,相比之下,生成式模型需要去學習如何生成標簽描述,故開始訓練時效果并不好,但隨著訓練的進行,它最終也能夠收斂并取得更好的結果。
最后來探究不同初始化方法的影響。眾所周知,強化學習難以訓練和收斂,所以一個號的初始化可以極大加快收斂。
我們在Yahoo和AAPD兩個數據集上,對抽取式和生成式模型進行不同的初始化,然后用強化學習訓練。
對抽取式(Ext),我們探究三種初始化方法:dummy Init是以選擇dummy token的方法初始化模型,ROUGE-L Init是選擇和模板描述相比得到最大的ROUGE-L得分的文段,random Init是隨機初始化。
對生成式(Abs),template Init是用模板作為要生成的描述去初始化模型。結果如下圖所示。
可以看到,幾種初始化方法對抽取式而言差別不是很大,即使是隨機初始化也可以實現可以接受的準確率,但是對生成式而言,隨機初始化無法使模型收斂。
這是因為抽取式模型的搜索空間更小,因為它只需要選擇文段,而生成式模型的搜索空間是所有可能的句子,隨機初始化無法導致收斂。
小結
我們提出了基于標簽描述的文本分類方法,該方法為每個標簽提供一段文本描述,或是由模板得到,或是文本中的一段,或者是動態生成的一個句子。
我們使用強化學習訓練標簽描述生成模型,然后把生成的標簽和文本拼接在一起,讓模型判斷文本是否具有該標簽。
實驗表明,這種方法能夠在單標簽分類、多標簽分類和多方面情感分析任務上取得顯著的效果,尤其是對復雜的標簽(如多方面情感分析)體系,該方法具有突出的優勢。
實際上,這種方法可以看作是一種廣義的問答(QA),Question就是標簽描述,Document就是輸入文本,Answer就是輸出概率。從這個角度講,其他許多任務都可以統一到這種框架下。
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的ICML 2020 | 基于类别描述的文本分类模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 消息称三星 Galaxy S25 系列手
- 下一篇: 英特尔,是如何错过移动、AI 两个时代的