ACL 2019 | 基于知识增强的语言表示模型,多项NLP任务表现超越BERT
作者丨張琨?
學校丨中國科學技術大學博士生
研究方向丨自然語言處理
論文動機
自從 BERT 被提出之后,整個自然語言處理領域進入了一個全新的階段,大家紛紛使用 BERT 作為模型的初始化,或者說在 BERT 上進行微調。BERT 的優勢就在于使用了超大規模的文本語料,從而使得模型能夠掌握豐富的語義模式。
但 BERT 是否還有改進的空間呢?如下圖,當提到*鮑勃迪倫*的時候,單純依靠大規模的普通文本很難理解到底是指音樂家還是作者,但如果加入充分的先驗知識,那么模型可能就會學習到更加精細化的語義表示,如何讓 BERT 掌握更多的人類先驗知識呢?
本文就提出了一種方法,將知識圖譜的信息加入到模型的訓練中,這樣模型就可以從大規模的文本語料和先驗知識豐富的知識圖譜中學習到字、詞、句以及知識表示等內容,從而有助于其解決更加復雜、更加抽象的自然語言處理問題。
模型結構
整個模型的動機就是將知識圖譜的信息有效融入到模型的訓練中,考慮到 BERT 的復雜結構,如何將知識圖譜的信息進行有效融合呢?作者提出了如下的結構:
可以看出,模型將 BERT 中的 Encoder 替換為了 T-Encoder+K-Encoder,T-Encoder 依然是對原來的文本進行編碼,這部分和 BERT 是一樣的,在 K-Encoder 中,可以看到輸入輸出都變成了兩個,多了 entity 的信息。
具體來說,首先可以利用 TransE 的方法對知識圖譜中的內容進行表示,并對文本中的實體進行識別,這樣文本中的實體都會有一個來自知識圖譜的實體表示,需要注意的是文本的長度和實體的長度并不相等,然后先用 mutli-head attention 對文本和實體分別進行處理,得到在整個序列中情境感知的語義表示:
接下來就是對這兩種信息進行融合,或者說利用實體的信息來增強對文本語義的理解,這個時候就分成兩種情況:?
1. 文本中的詞有實體對應,一個很簡單的思路,通過一個非線性變換,得到融合后的信息:
2. 文中的詞沒有實體對應,為了保證一致性,還是同樣的方法,只是只有實體詞的輸入:
通過這樣的方法,就將實體的知識信息融入到了對文本語義的增強表示中,接下來將相應的單元重復多次,就得到的最終的文本語義表示。?
訓練細節
從模型上實現了知識圖譜信息的有效融合,那如何訓練呢?如果單純還是和 BERT 的訓練方式相同,知識圖譜的知識信息可能并不能如期望的那樣進行有效融合,因此作者參考 Masked Language Model 設計了一個 denoising Entity Auto-encoder (dEA) 任務,用以訓練模型對實體信息的感知和對齊,具體內容如下。
dEA 的目的就是要求模型能夠根據給定的實體序列和文本序列來預測對應的實體,首先是實體和文本之間的對齊概率計算:
這個公式也被當作訓練 dEA 時的損失函數,有了目標,那么數據該如何準備呢?和 Masked Language Model 類似,作者對實體也做了如下處理:?
1. 對于一個給定的文本-實體對應序列,5% 的情況下,實體會被替換為一個隨機的實體,這么做是為了讓模型能夠區分出正確的實體對應和錯誤的實體對應;?
2. 對于一個給定的文本-實體對應序列,15% 的情況下,實體會被 mask,這是為了保證模型能夠在文本-實體沒有被完全抽取的情況下找到未被抽取的對應關系;?
3. 對于一個給定的文本-實體對應序列,剩下的 80% 的情況下,保持不變,這是為了保證模型能夠充分利用實體信息來增強對文本語義的表達。?
和 BERT 類似,作者也對輸入進行了一些調整,從而保證了模型能夠自適應不同的任務,下圖展示了針對三類自然語言處理任務的輸入調整:
對于一般的 NLP 任務而言,知識在輸入的頭尾加上特定的開始結束符號,然后送給模型,并取 [CLS] 對應的輸出作為輸入句子的表示。
對于一些知識驅動的任務,如關系分類,實體類別識別等任務,作者加入了特定的符號用以區分這些任務,對于實體類別識別任務,作者加入了 [ENT] 來指導模型使用文本表示和實體表示進行最后的實體信息識別。
對于關系分類任務,作者加入了 [HD] 和 [TL] 分別表示頭實體和尾實體,然后使用 [CLS] 對應的特征向量來進行最后的分類。整個這部分的操作和 GPT-2 的無監督學習有些類似。
實驗結果
和 BERT 不同的是,作者首先在兩個知識驅動的任務上進行了模型效果的驗證:?
1. Entity Typing:給定實體和對應的上下文,模型需要識別該實體的語義類型?
2. Relation Classification:給定一個句子,模型需要識別出句子中的兩個實體之間的關系。
這兩個任務都是知識驅動的任務,不單單需要模型能夠掌握豐富的語義模型,同時需要模型能夠有豐富的先驗知識,這樣才能進行準確識別和分類,下圖是對應的實驗結果:
從實驗結果上看,模型取得了非常好的效果,這也說明了模型有效融入了知識圖譜的先驗信息,實現了文本語義的增強表示,同時作者還在常見的 NLP 任務上和 BERT base 進行了對比,實驗結果也證實了模型的有效性。
總結
自從 BERT 被提出后,NLP 領域的研究形式也開始慢慢向 CV 靠攏,利用這些預訓練好的超大模型獲得豐富的語義模式,從而通過在具體任務上的微調獲得最后的效果。
但 NLP 和 CV 還是有很大不同的,自然語言是一種高度抽象的信息,單純通過語言模型獲取豐富的語義模式并不能一勞永逸地解決所有問題,而這篇文章就進行了這方面的一個嘗試,通過引入外部先驗知識增強模型的語義理解和表征。那是不是還可以進行不僅僅是文本方面的增強,例如通過語音融入情感信息,通過圖像引入視覺信息等,這些都是值得研究的地方。
點擊以下標題查看更多往期內容:?
圖神經網絡綜述:模型與應用
小樣本學習(Few-shot Learning)綜述
F-Principle:初探理解深度學習不能做什么
基于小樣本學習的意圖識別冷啟動
復旦大學邱錫鵬:詞法、句法分析研究進展綜述
AAAI 2019 | 基于分層強化學習的關系抽取
深度長文:NLP的巨人肩膀(上)
NLP 的巨人肩膀(下):從 CoVe 到 BERT
自然語言處理中的語言模型預訓練方法
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文 & 源碼
總結
以上是生活随笔為你收集整理的ACL 2019 | 基于知识增强的语言表示模型,多项NLP任务表现超越BERT的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 每周一起读 #02 | ICML 201
- 下一篇: 每周一起读 × 招募 | ICML 20