句法依存分析_复旦大学邱锡鹏教授:词法、句法分析研究进展综述
關于報告人:
邱錫鵬,復旦大學計算機科學技術學院副教授,博士生導師。于復旦大學獲得理學學士和博士學位。主要從事自然語言處理、深度學習等方向的研究,在 ACL、EMNLP、IJCAI 等計算機學會 A/B 類期刊、會議上發表 50 余篇學術論文,引用 1600 余次。開源中文自然語言處理工具 FudanNLP 作者。2015 年入選首屆中國科協人才托舉工程,2017 年 ACL 杰出論文獎,2018 年獲中國中文信息學會“錢偉長中文信息處理科學技術獎—漢王青年創新獎”。
大家好,我是邱錫鵬。今天非常榮幸給大家簡要分享一下 NLP 中詞法和句法分析領域的最新研究進展。
首先,我們來看一下詞法和句法分析中的任務定義。我們一般認為詞是語言中的最小語義單位,所以在進行后續的很多 NLP 任務的時候,需要先進行(中文)分詞,標注它的詞性,并分析句子的句法結構。像這里給的一個句子“上海計劃發展金融業”,首先需要將其進行分詞,然后進行詞性標注和句法分析。這里我們的句法分析主要以依存句法分析為主進行介紹,建立詞與詞之間的依賴關系。因此我們這里主要涉及三個任務:中文分詞,詞性標注和依存句法分析。
目前用來解決這三個任務的基本方法可以分為序列標注方法,基于轉移的方法和基于圖的方法三種。為了解決錯誤傳播問題,一般來說,我們可以將這三個任務進行聯合建模,比如中文分詞和詞性標注的聯合模型、詞性標注和句法分析的聯合模型、以及三個任務的全聯合模型。
這三個任務的最新研究進展和 SOTA 模型都可以從 NLP-Progress 這個網站進行查詢。
中文分詞
首先我們來看一下中文分詞。
目前中文分詞最好的模型是來自 EMNLP 2018 的一篇論文,采用了基于堆疊雙向長短期記憶網絡的序列標注模型。
該方法雖然在模型上并沒有太多的創新,但是其采用了預訓練 bigram embedding 和變分 droupout 方法以及堆疊雙向長短期記憶網絡的微創新,訓練了一個相對較深的網絡,在解碼時直接使用一個 softmax 分類器,而不用 CRF。在多個數據集上達到了最好的效果。
基于序列標注的方法是給字進行打標簽,很難利用到詞級別的信息。為了引入詞級別的信息可以采用以下三種方法:基于轉移的方法、Semi-CRF 和 DAG-LSTM/Lattice-LSTM。下面我分別簡要介紹一下這三種方法。
基于轉移的方法是通過轉移動作序列來進行分詞,即從左往右判斷一個每兩個相鄰的字是分還是不分。這是一種貪婪的方法。在中間某一步時,我們已經有之前分好詞的信息,所以可以利用詞級別的信息來進行建模。
第二種利用詞級別信息的方法是利用 Semi-CRF 模型,直接建模不同詞之間的依賴關系。一般來講,可以先統一通過一個雙向的循環神經網絡來提取字別的信息,然后使用一個融合方法來生成詞級別的信息,最后輸入 Semi-CRF 層來進行分詞。Semi-CRF 的缺點是候選詞有一個最大長度限制,我們提出了一種改進方法,目前正在投稿中。
第三種利用詞級別信息的方法是是改進 LSTM 模型,將鏈式結構擴展到 DAG 結構。我們可以用一個事先準備好的詞典,對句子進行預分割,把所有的分割可能性都組合出來。這樣我們模型的輸入是有多個字和詞構成的混合序列,構成一個 DAG 結構。針對這種結構,我們提出一種 DAG-LSTM 來進行序列標注。
在中文分詞中,有一個問題是很多不同的分詞標準。之前的方法都是在單個標準上進行訓練模型。我們知道,不同的分詞標準之間有很多共通的特性。如這個表中所示,三個不同標準存在部分重疊,因此我們可以同時利用多個不同標準的數據進行聯合訓練,通過多任務學習來輔助提高每個單獨標準的分詞能力。
這里介紹一個我們在多標準分詞上面的最新工作,所有不同的標準都共享一個模型,由于 Transformer 的強大能力,我們用一個共享的 Transformer 來進行編碼,解碼用一個共享的 MLP 或 CRF。然后增加一個額外的 Criterion ID,用來指示模型輸出哪個標準的結果。目前這個模型在所有的分詞任務上都達到了最好的效果。
詞性標注
詞性標注一般來講比較簡單,所以很少有單獨工作來專門的詞性標注任務。一般都是詞性標注和其他任務相結合。首先我們來看一下聯合的中文分詞和詞性標注任務。
第一種方法是基于字的序列標注方法,使用“BMES”和詞性的交叉標簽來給每個字打標簽。比如“B-NN”、“S-NR”等。相比于中文分詞,分詞和詞性的聯合任務需要更多的特征,因此我們可以用更復雜的網絡來進行抽取特征。
第二種方法是基于轉移的方法,首先利用一個 BiLSTM 編碼器來提取上下文特征,在解碼時每一步都預測一個動作。動作的候選集合為是否分詞以及詞性。
依存句法分析
接下來介紹下句法分析的最新進展,這里主要以依存句法分析為主。在深度學習之前,依存句法分析就分為基于轉移的方法和基于圖的方法。近幾年,分別出現了針對這兩種不同方法的神經網絡模型。
首先來看下基于轉移的方法,通過 shift-reduce 兩個基本的動作來將序列轉換為樹結構。首先用一個 buffer 來存儲所有未處理的輸入句子,并用一個棧來存儲當前的分析狀態。
動作可以分為:1)shift,即將 buffer 中的一個詞移到棧中;2)left_arc(x),即棧頂兩個詞 a,b 為 a<-b 的依賴關系,關系種類為 x;3)right_arc(x),即棧頂兩個詞 a,b 為 a->b 的依賴關系,關系種類為 x。后兩種動作為 reduce 動作。
目前基于轉移的方法的最好模型是 Stack LSTM,通過三個 LSTM 來分別建模棧狀態、待輸入序列和動作序列。 其中因為棧需要入棧和出棧,因此作者提出了一個 Stack LSTM 來建模棧狀態。
雖然基于 Stack LSTM 取得了非常好的效果,但是在目前的依存句法分析中,最流行的方法是基于圖的方法經典的方法是 Biaffine 模型。直接用神經網絡來預測每兩個詞之間存在依存關系的概率,這樣我們就得到一個全連接圖,圖上每個邊代表了節點 a 指向節點 b 的概率。然后使用MST等方法來來將圖轉換為一棵樹。
Biaffine 模型其實和我們目前全連接自注意力模型非常類似。Biaffine 模型十分簡單,并且容易理解,并且在很多數據集上都取得了目前最好的結果。
除模型外,目前依存句法分析主要關注于多語言的依存通用依存分析。目前一個數據集是 universal dependenies,其中有很多問題值得研究,比如多任務學習、遷移學習、通用語言表示等。
詞性標注 & 句法分析
很自然地我們可以將詞性標注和句法分析作為聯合任務來進行建模。
聯合的詞性標注和句法分析方法有很多,可以是基于轉移的方法也可以是基于圖的方法。這里介紹一種比較簡單的方法,首先利用 LSTM 來預測詞性,然后用詞性信息和詞信息一起用另外一個 LSTM 進行建模,并用 Biaffine 模型進行句法分析。
中文分詞 & 句法分析
在中文方面,句法分析是基于詞級別的,所以在做句法分析之前要先進行分詞。那么我們是不是可以將中文分詞和句法分析也作為一個聯合任務來同時進行呢?
我們提出了一個基于圖方法的統一模型來同時解決中文分詞和句法分析問題。其實方法很簡單,只需要將詞內部的字之間加上一個特殊的依賴關系“app”,然后將詞級別的依存關系轉換為字級別的依存關系。并且用 biaffine 模型來進行同時預測。
這就是具體的模型結構,和 biaffine 模型類似。
fastNLP
最后,上面的模型都將在 fastNLP 中進行實現,這里簡單介紹下我們最近的一個工作,基于深度學習的自然語言處理平臺 FastNLP。
我們希望做到具有 Spacy 的易用性,AllenNLP 模塊化以及 AutoML 自動模型選擇。
FastNLP 是一個模塊化可擴展的 NLP 框架,提供大量的預訓練模型,可以使大家在五分鐘內實現 SOTA 模型。另外 NLP 中大量的時間都花在數據的預處理和數據轉換上面,FastNLP 提供了一種非常簡單高效的數據預處理方法。面向我們科研工作者,FastNLP 也提供了非常方便的參數記錄以及實驗過程可視化工具。
最后希望有興趣的老師、同學一起來參與開發,謝謝。
#投 稿 通 道#
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
投稿方式:
? 方法一:在PaperWeekly知乎專欄頁面點擊“投稿”,即可遞交文章
? 方法二:發送郵件至:hr@paperweekly.site ,所有文章配圖,請單獨在附件中發送
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
加入社區:http://paperweek.ly
微信公眾號:PaperWeekly
新浪微博:@PaperWeekly
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的句法依存分析_复旦大学邱锡鹏教授:词法、句法分析研究进展综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 三菱PLC的编程语言有指令表、梯形图、步
- 下一篇: 商业保理业务信息化平台建设的要点分享