當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 基于神经网络的实体识别和关系抽取联合学习

發布時間：2024/7/5 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 基于神经网络的实体识别和关系抽取联合学习小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文轉載自公眾號：PaperWeekly。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

作者丨羅凌

學校丨大連理工大學博士生

研究方向丨深度學習，文本分類，實體識別

聯合學習（Joint learning）一詞并不是一個最近才出現的術語，在自然語言處理領域，很早就有研究者使用基于傳統機器學習的聯合模型（Joint model）來對一些有些密切聯系的自然語言處理任務進行聯合學習。例如實體識別和實體標準化聯合學習，分詞和詞性標注聯合學習等等。

最近，研究者們在基于神經網絡方法上進行實體識別和關系抽取聯合學習，我閱讀了一些相關工作，在此和大家一起分享學習（本文中引用了一些論文作者 Suncong Zheng 的 PPT 報告）。

引言

本文關注的任務是從無結構的文本中抽取實體以及實體之間的關系（實體 1-關系-實體 2，三元組），這里的關系是我們預定義好的關系類型，例如下圖：

目前有兩大類方法，一種是使用流水線的方法（Pipelined Method）進行抽取：輸入一個句子，首先進行命名實體識別，然后對識別出來的實體進行兩兩組合，再進行關系分類，最后把存在實體關系的三元組作為輸入。

流水線的方法存在的缺點有：

1. 錯誤傳播，實體識別模塊的錯誤會影響到下面的關系分類性能；

2. 忽視了兩個子任務之間存在的關系，例如圖中的例子，如果存在 Country-President 關系，那么我們可以知道前一個實體必然屬于 Location 類型，后一個實體屬于 Person 類型，流水線的方法沒法利用這樣的信息；

3. 產生了沒必要的冗余信息，由于對識別出來的實體進行兩兩配對，然后再進行關系分類，那些沒有關系的實體對就會帶來多余信息，提升錯誤率。

理想的聯合學習應該如下圖：輸入一個句子，通過實體識別和關系抽取聯合模型，直接得到有關系的實體三元組。這種可以克服上面流水線方法的缺點，但是可能會有更復雜的結構。

聯合學習

這里我主要關注的基于神經網絡方法的聯合學習，我把目前的工作主要分為兩大類：1. 參數共享（Parameter Sharing）和 2. 標注策略（Tagging Scheme）。主要涉及到下面一些相關工作。

參數共享

論文《Joint Entity and Relation Extraction Based on A Hybrid Neural Network》，Zheng 等人利用共享神經網絡底層表達來進行聯合學習。

具體的，對于輸入句子通過共用的 word embedding 層，然后接雙向的 LSTM 層來對輸入進行編碼。然后分別使用一個 LSTM 來進行命名實體識別（NER）和一個 CNN 來進行關系分類（RC）。

相比現在主流的 NER 模型 BiLSTM-CRF 模型，這里將前一個預測標簽進行了 embedding 再傳入到當前解碼中來代替 CRF 層解決 NER 中的標簽依賴問題。

在進行關系分類的時候，需要先根據 NER 預測的結果對實體進行配對，然后將實體之間的文本使用一個 CNN 進行關系分類。所以該模型主要是通過底層的模型參數共享，在訓練時兩個任務都會通過后向傳播算法來更新共享參數來實現兩個子任務之間的依賴。

論文《End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures》也是類似的思想，通過參數共享來聯合學習。只是他們在 NER 和 RC 的解碼模型上有所區別。

這篇論文 Miwa 等人同樣是通過參數共享，NER 使用的是一個 NN 進行解碼，在 RC 上加入了依存信息，根據依存樹最短路徑使用一個 BiLSTM 來進行關系分類。

根據這兩篇論文的實驗，使用參數共享來進行聯合學習比流水線的方法獲得了更好的結果在他們的任務上 F 值約提升了 1%，是一種簡單通用的方法。論文《A Neural Joint Model for Entity and Relation Extraction from Biomedical Text》將同樣的思想用到了生物醫學文本中的實體關系抽取任務上。

標注策略

但是我們可以看到，參數共享的方法其實還是有兩個子任務，只是這兩個子任務之間通過參數共享有了交互。而且在訓練的時候還是需要先進行 NER，再根據 NER 的預測信息進行兩兩匹配來進行關系分類。仍然會產生沒有關系的實體對這種冗余信息。

出于這樣的動機，Zheng 等人在論文《Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme》中提出了一種新的標注策略來進行關系抽取，該論文發表在 2017 ACL 上，并入選了 Outstanding Paper。

他們通過提出了一種新的標注策略把原來涉及到序列標注任務和分類任務的關系抽取完全變成了一個序列標注問題。然后通過一個端對端的神經網絡模型直接得到關系實體三元組。

他們提出的這種新的標注策略主要由下圖中三部分組成：1）實體中詞的位置信息{B（實體開始），I（實體內部），E（實體結尾），S（單個實體）}；2）關系類型信息{根據預先定義的關系類型進行編碼}；3）實體角色信息{1（實體1），2（實體2）}。注意，這里只要不是實體關系三元組內的詞全部標簽都為“O”。

根據標簽序列，將同樣關系類型的實體合并成一個三元組作為最后的結果，如果一個句子包含一個以上同一類型的關系，那么就采用就近原則來進行配對。目前這套標簽并不支持實體關系重疊的情況。

然后該任務就變成了一個序列標注問題，整體模型如下圖。首先使用了一個 BiLSTM 來進行編碼，然后使用了在參數共享中提到的 LSTM 來進行解碼。

和經典模型不同的地方在于他們使用了一個帶偏置的目標函數。當標簽為“O”時，就是正常的目標函數，當標簽不是“O”時，即涉及到了關系實體標簽，則通過 α 來增大標簽的影響。實驗結果表明，這個帶偏置的目標函數能夠更準確的預測實體關系對。

總結

基于神經網絡的實體識別和關系抽取聯合學習主要由兩類方法。其中參數共享的方法簡單易實現，在多任務學習中有著廣泛的應用。

Zheng 等人提出的新的標注策略，雖然目前還存在一些問題（例如無法識別重疊實體關系），但是給出了一種新的思路，真正的做到了兩個子任務合并成了一個序列標注問題，在這套標注策略上也可以進行更多的改進和發展來進一步完善端到端的關系抽取任務。

參考文獻

[1] S. Zheng, Y. Hao, D. Lu, H. Bao, J. Xu, H. Hao, et al., Joint Entity and Relation Extraction Based on A Hybrid Neural Network, Neurocomputing. (2017) 1–8.?

[2] M. Miwa, M. Bansal, End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures, ACL, (2016).?

[3] F. Li, M. Zhang, G. Fu, D. Ji, A Neural Joint Model for Entity and Relation Extraction from Biomedical Text, BMC Bioinformatics. 18 (2017).?

[4] S. Zheng, F. Wang, H. Bao, Y. Hao, P. Zhou, B. Xu, Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme, Acl. (2017).