CML 2020 | 显式引入对分类标签的描述,如何提高文本分类的效果?
論文鏈接:https://arxiv.org/pdf/2002.03067.pdf
1
簡介
一般來說,模型越深效果越好。但是同時,模型越深也更難訓練——即無法收斂到訓練集上一個好的值。
今天,我們給大家介紹被 ICML2020接收的一篇文章:基于類別描述的文本分類模型。
該模型的主要思想是:通過顯式地引入對分類標簽的描述提高文本分類的效果。我們提出了三種方法引入這種描述:
- 模板法——對每個標簽靜態地指定一個描述;
- 抽取法——對每個標簽在輸入文本中抽取一段文字作為描述;
- 生成法——動態地根據輸入的文本為每個標簽生成一段描述。
使用這種技術,我們能夠在單標簽文本分類、多標簽文本分類和多角度情感分析任務的10個數據集上取得顯著更好的效果。
2
文本分類中的標簽
文本分類是自然語言處理中非常重要的一項任務,它要求模型判斷輸入文本的類別,如情感、評分、類型等。
從分類數量上說,分為單標簽分類和多標簽分類,前者指每個文本只有一個標簽類,后者指每個文本可以有多個標簽類。
從任務類型講,可以分為文檔分類、情感分析等,前者指對整個輸入文本分類(可以是單標簽或多標簽),后者指對文本的多種情感判斷類別。
經典的文本分類方法是把待分類標簽視為簡單的下標。如當前的輸入文本是“這個電影真好看”,需要分類的標簽是{1:積極,0:消極},模型接受文本之后,輸出的是0或者1,代表分類結果。
顯然,用這種分類方法,模型完全無視了“積極”和“消極”的語義,對更復雜標簽,這無疑是一種“語義浪費”。我們想要把標簽提供的信息利用起來。
鑒于此,我們提出在輸入文本的同時,也輸入對標簽本身的描述,比如牛津詞典對“positive”的定義(描述)是:“full of hope and confidence, or giving cause for hope and confidence”。
把這個描述和原始文本拼接在一起,送入模型,模型輸出一個概率值,代表當前文本具有該標簽類的可能性。如此,我們就能充分利用標簽本身提供的語義。
但是如果待分類文本的標簽數很多(甚至上百個標簽),一個一個為他們人工構造描述也是件麻煩的事情,況且人工構造的也不一定“準確”。
為此,我們期望模型能動態地、根據輸入句子的不同自動構造出一個描述來。
因而,我們又提出了兩種方法:抽取文本中的一段作為描述,和使用一個語言模型從頭生成一段描述。這兩種方法都可以使用強化學習得以實現。
這三種方法的一個例子如下。對當前輸入的文本,我們現在要去判斷它是否屬于“car”這個標簽,而“car”的模板描述、抽取描述和生成描述分別如圖所示。
這種基于標簽描述的方法有以下好處:
- 融入了標簽語義,而不僅僅是簡單的下標,使得模型更好地進行分類;
- 可以很輕松地進行多分類,只需要一個一個判斷標簽即可;
- 得到標簽描述具有一定的靈活性,不限于人工定義的標簽描述。
用這種方法,我們能夠在單標簽分類數據集AGNews, 20news, DBPedia, Yahoo, YelpP,IMDB,多標簽分類數據集Reuters,AAPD,和多方面情感分析數據集BeerAdvocate,TripAdvisor取得顯著更好的效果。
3
總結
以上是生活随笔為你收集整理的CML 2020 | 显式引入对分类标签的描述,如何提高文本分类的效果?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 多标签文本分类 [ALBERT](附代码
- 下一篇: vue使用query传参页面刷新数据丢失