论文浅尝 | 用于嵌套命名实体识别的二部平面图网络(BiFlaG)
筆記整理 |?欒岱洋,東南大學
來源:ACL 2020
鏈接:https://www.aclweb.org/anthology/2020.acl-main.571.pdf
本文提出了一種可以實現重疊主體的識別的BiFlaG(bipartite flatgraph network)模型,包含兩個子圖模塊:用于外層實體的flat NER模塊以及用于所有內層實體的圖模塊。雙向LSTM以及圖卷積網絡被用于聯合學習flat entity以及它們的內部依賴。不同于過去的方法,本文同時考慮了內外層的雙向交互,flat NER模塊識別的實體首先被用于構建實體圖,然后反饋到圖模塊,后者得到涵蓋了內部實體依賴信息的強化表示學習,并用于增強外部實體的預測,在三個NER數據集上的實驗結果表明,本文模型優于已有SotA方法。
本文提出的命名實體識別模型可以實現重疊主體的識別。NER可以識別出包含預定義類別的實體(如位置、組織等),Nested NER用于處理重疊主體的問題。
模型
1) 標志表示:假定給定序列長度為N,對于每一個token,我們使用詞嵌入和字母嵌入表
示????$ = [????i; ????i],前者表示word-level embedding,后者為character-level embedding.使用
BiLSTM捕獲序列信息????i = BiLSTM(????i).
2) BiLSTM-CRF結構:包括一個雙向LSTM編碼器和條件隨機場解碼器。
BiLSTM獲取序列的雙向背景文本信息,其輸出為CRF的輸入,隱藏層狀態為
條件隨機場中使用Viterbi算法獲取在解碼過程中概率最大的標簽序列,其評分函數為:
其中????yi,yi+1表示從????i到????i+1的轉移評分,????i,yi表示標簽????i對應第i個BiLSTM編碼的詞的評分。
圖模塊
使用BiGCN提取圖中的特征。
算法:
實驗
數據集:
GENIA 基于GENIA corpus3.02p,包含5種實體類型并切分為8.1:0.9:1的訓練/驗證/測試子集
ACE2005 包含7種實體類型,按8:1:1切分訓練/驗證/測試集
KBP2017 作者在英語評價數據集上驗證了本文模型,訓練集和驗證集包含了之前的RichERE標注集
評價指標:
準確率及召回率和F1值
實驗結果見表2
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 | 用于嵌套命名实体识别的二部平面图网络(BiFlaG)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - ACL2020 | 通过集
- 下一篇: 2019手把手教你Java面试通关BAT