AAAI 2022 | 基于词对关系建模的统一NER,刷爆14个中英NER数据集
引言
本研究重新審視了統一命名實體識別中的核心問題,即詞與詞之間的關系建模,并提出將所有類型的命名實體識別統一采用一種詞對關系分類的方法進行建模。所提出的系統廣泛地在 14 個命名實體識別數據集刷新了最好的分數。
論文題目:
基于詞對關系建模的統一命名實體識別系統
Unified Named Entity Recognition as Word-Word Relation Classification
論文作者:
李京燁(武漢大學),費豪(武漢大學),劉江(武漢大學),吳勝瓊(武漢大學),張梅山(哈工大深圳),滕沖(武漢大學),姬東鴻(武漢大學),李霏(武漢大學)
收錄會議:
AAAI 2022
論文鏈接:
https://arxiv.org/pdf/2112.10070.pdf
代碼鏈接:
https://github.com/ljynlp/W2NER
動機介紹
1.1 命名實體識別任務
命名實體識別(Named Entity Recognition,NER)是自然語言處理領域的一項非常基本的任務,在社區長久以來一直得到廣泛的研究。當前的 NER 的研究重點已經從常規的扁平命名實體識別(Flat NER)逐漸轉向了重疊命名實體識別(Nested/Overlapped NER)與非連續命名實體識別(Discontinuous NER)。這三類 NER 分別為:
Flat NER:抽取連續的實體片段(或者包含對應的實體語義類型);
Nested/Overlapped NER:抽取的兩個或多個實體片段之間有一部分的文字重疊;
Discontinuous NER:所抽取的多個實體間存在多個片段,且片段之間不相連。
▲ 圖1:重疊與非連續實體例子(a),該例子可轉化成詞對關系抽取(b)
以圖 1 為例,“aching in legs”是一個扁平實體,“aching in shoulders”是一個非連續實體,兩者在“aching in”上重疊。以上三種 NER 類型可概括為統一命名實體識別(Unified Named Entity Recognition,UNER)
1.2 命名實體識別方法
截止當前,命名實體識別領域的主流方法大致可分類為四類:
基于序列標注的方法;
基于超圖的方法;
基于序列到序列的方法;
基于片段的方法。
其中,基于序列標注的方法是 Flat NER 的基準模型;而基于超圖的方法由于其模型結構相對復雜從而使其獲得的關注相對較少。而基于序列到序列方法和基于片段的方法獲得了當前最好的效果,并且也是當前 NER 社區最為流行的方法,這兩種方法的基本技術思路如圖 2 所示。
▲ 圖2:序列到序列的方法與基于片段的方法
當前 NER 社區嘗試采用一種模型框架同時將三種不同類型的 NER 同時建模,即端到端抽取出所有的類型的實體。以上四種 NER 方法均可以被設計為支持統一命名實體識別的模型。本研究亦關注于構建一種高效的 UNER 系統。
1.3 本文的方法
在絕大部分現有的 NER 工作中,普遍認為NER的核心要點在于如何準確識別實體的邊界;然而我們在針對三種實體類型的共性進行深入挖掘后,認為詞語之間在語義上的連接特征才是 UNER 最為關鍵的問題。例如圖 1(a)中,識別扁平實體“aching in legs”相對而言是較為簡單,因為這個實體所包含的詞是天然相鄰的。而要識別出非連續實體“aching in shoulders”,則一個成功的 UNER 模型需要準確高效地片為片段“aching in”和片段“shoulders”之間在語義上的鄰接關系進行建模。
根據上述觀察,本文將 UNER 任務轉化成一種詞對的關系分類任務,提出了一種新的 UNER 架構(NER as Word-Word Relation Classification),名為 W2NER。具體地,該框架的目標是將 UNER 轉變為識別出實體詞中所蘊含的兩種類型的關系,即:
鄰接關系(Next-Neighboring-Word,NNW);
頭尾關系(Tail-Head-Word-*,THW-*);
如圖 1(b)所示。其中 NNW 表示兩個詞在某個實體中相鄰(如“aching”->“in”),而 THW-* 則表示兩個詞是某個實體的頭部和尾部,且該實體類型為“*”(如“leg”->“aching”,Symptom)。具體的詞對關系分類示例如圖 3 所示。
▲ 圖3:關系分類示例
模型框架
圖 4 給出了 W2NER 整體的框架結構。其整體可分為三層:輸入編碼層,卷積特征學習層以及最后的解碼層。其中解碼層是本論文的核心。
▲ 圖4:模型整體結構
2.1 編碼層
給定一個輸入句子,將每一個詞轉換成多個 word piece,并將他們輸入預訓練的 BERT 模塊中。進過 BERT 計算后,使用最大池化操作將這些 word piece 表示重新聚合成詞表示。為了進一步增強模型的上下文建模能力,這里再使用了一個 BiLSTM 得到最終的詞表示序列。
2.2 卷積層
由于該框架的目標是預測詞對中的關系,因此生成高質量的詞對表示矩陣尤為重要,這里使用條件層規范化(Conditional Layer Normalization, CLN)對詞對表示進行計算。受到 BERT 輸入層的啟發,對于卷積模塊的輸入,使用詞對表示、位置嵌入和區域嵌入進行拼接。其中位置嵌入表示每個詞對中蘊含的相對位置信息,而區域嵌入用于分隔矩陣中上下三角的區域信息。然后,將這三種類型的張量拼接,再使用一個全連接網絡對特征進行混合并降低維度,在送入多個擴張卷積中進行運算,在將不同的卷積輸出結果拼接起來。
2.3 解碼層
在解碼預測層,在使用 FFN 對卷積層輸出特征進行關系預測的同時,將編碼層輸出特征輸入 Biaffine 也進行詞對關系預測,這一步可以看做是一種特殊的殘差機制,將編碼層的特征也利用起來。因此最后的輸出為 FFN 和 Biaffine 輸出的加和。
在解碼階段,模型需要處理不同的詞對關系。模型的預測結果是詞之間的關系,這些詞和關系可以構成一個有向圖,其中詞是節點,關系是邊。模型的解碼目標則是要尋找從一個詞到另一個詞的由鄰接關系連接起來的路徑,每條路徑其實代表著一個對應的實體。而頭尾關系則可以用于判斷實體的類型和邊界,除此之外還具有消歧的作用。圖 4 從易到難展示了 4 個解碼類型的例子。
▲ 圖5:四種不同類型樣本的解碼示例
實驗結果
本文在 14 個 NER 常用數據集上(包括英文和中文)進行了實驗,分別是:
在扁平實體識別中,使用的英文數據集為 CoNLL 2003 和 OntoNotes 5.0,中文數據集為 OntoNotes 4.0、MSRA、Weibo 和 Resume;
在重疊實體識別中,使用 ACE 2004 和 ACE 2005 的中英文數據,和生物領域的英文數據集 Genia;
在非連續命名實體識別中,使用 CADEC、ShARe13、ShARe14。
表 1-5 分別展示了上述任務和數據集上與基線模型對比的結果。實驗結果表明,我們提出的基于詞對關系抽取的方法,通過對鄰接關系和頭尾關系的識別,可以同時解決扁平實體、重疊實體和非連續實體的三種子任務,并在 14 個數據集上的效果都優于之前的工作。
▲ 表1:英文扁平命名實體識別
▲ 表2:中文扁平命名實體識別
▲ 表3:英文重疊命名實體識別
▲ 表4:中文重疊命名實體識別
▲ 表5:英文非連續命名實體識別
▲ 圖6:重疊實體與非連續實體識別效果對比
通過進一步的消融實驗,我們探索了不同參數和部件對整體框架的影響。此外我們模型在相對較小的參數情況下,其訓練和推理速度超過了多個非連續實體識別模型。
▲ 表6:消融實驗
▲ 圖7:模型參數與效率對比
總結
本文提出了一個統一命名實體識別框架,通過對詞與詞之間的關系進行分類的方式同時解決三種命名實體識別子任務。通過對預先定義好的詞對中的鄰接關系和頭尾關系分類,模型能夠實現對復雜實體的解碼。所提出的框架在 14 個中英文命名實體識別基準數據集上進行了實驗驗證,其刷新了當前最先進的基線模型,取得了目前最好的統一命名實體識別分數。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的AAAI 2022 | 基于词对关系建模的统一NER,刷爆14个中英NER数据集的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 高‏端‏
- 下一篇: 雄安新区芙蓉里是毛坯房还是精装修?