论文小综 | 文档级关系抽取方法(下)
本文作者:
陳想,浙江大學在讀博士,研究方向為自然語言處理
張寧豫,浙江大學助理研究員,研究方向為自然語言處理、知識表示與推理
這篇推文是文檔級關系抽取方法的第二部分,前面的部分請移步推文“論文小綜 | 文檔級關系抽取方法(上)”
3.2?基于序列的方法
傳統基于序列的方法主要采用RNN等架構。隨著近年來transformer模型在NLP領域的應用,基于序列的方法主要采用基于transformer架構。基于序列的模型認為transformer本身可以隱式建模長距離依賴性,此類方法沒有引入graph結構而直接應用預訓練語言模型。這里我們主要介紹以下2篇代表性的論文。
Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling
發表會議:AAAI 2021
論文鏈接:
https://arxiv.org/abs/2010.11304
Motivation
multi-entity (multiple entity pairs to classify in a document)和multi-label (multiple relation types for a particular entity pair) 屬性是文檔級關系抽取比句子級關系抽取難以實現的關鍵所在[2]。
1. 現有的方法在計算entity representation時,每個entity在不同的entity pair中保持相同的representation,這會引進不相關信息的噪聲。作者引入localized context pooling技術,它可以解決對所有的實體對使用相同的entity embedding問題;
2. 對于multi-label問題,現有的方法將之歸納為二值的多標簽分類問題,給每個class應用一個全局的閾值來獲得關系類別。這種方法涉及啟發式閾值調整,并且當來自開發數據的調整閾值可能并非對所有實例均不是最佳時,會引入決策錯誤。作者提出adaptive thresholding技術,此技術消除了對閾值調整的需要,并使閾值可調整為適用于不同的實體對,從而獲得了更好的結果。
Model
ATLOP模型的核心主要為兩部分:Localized Context Pooling和Adaptive Thresholding。
1. Localized Context Pooling:有的上下文可能和實體對沒啥關系,所以作者只關心對決定實體對的關系有用的上下文。使用與兩個實體相關的附加上下文embedding,來增強實體對的embedding。因為已經用了基于雙向transformer的bert來編碼,bert已經很強大了,其自帶多頭attention,不需要從頭學習新的attention了,所以從最后一層transformer里直接取他們的注意力頭來作為局部上下文。如下圖所示:
對同一實體的所有提及的attention求平均,獲得實體的attention。通過將它們的實體級attention相乘,然后進行規范化,我們獲得了對兩個實體都很重要的上下文embedding。
將上下文embedding融入到實體embedding中:??
2. Adaptive Thresholding:作者認為全局閾值不合理,因為不同實體對,不同關系,不能一概而論。
Positive T:對于一對實體T,只要二者存在關系,Pt 就包含這類關系,如果不巧,這對實體沒有關系,那Pt 就是空的。
Negative T:對于一對實體T,如果二者不存在任何關系,Nt 存儲的是實體對T不存在的關系。
如果實體對分類正確,陽性標簽的logit會高于閾值,陰性標簽的logit低于閾值。這個閾值TH class就可以自己學習得到。自適應閾值的損失函數如下:
Experiment
數據集:DocRED、CDR、GDA
實驗結果:
實驗結果顯示,在DocRED、CDR和GDA三種數據集上,作者提出的ATLOP均達到了SOTA,ATLOP未構建任何圖結構,簡單的應用bert自身的attention信息以及動態閾值方法便取得了顯著的效果。
Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation Extraction
發表會議:AAAI 2021
論文鏈接:
https://arxiv.org/pdf/2102.10249.pdf
Motivation
如下圖示例所示,文檔級文本需要在多個mention中定義大量的entity,這些entity在兩者之間表現出有意義的依存關系。這樣的依賴關系表明entity與mention之間豐富的信息交互,從而為關系提取提供了有益的先驗[3]。
先前的許多工作都嘗試利用這種entity structure,特別是coreference dependency,但大都只是將coreferential information簡單編碼為額外特征并將其集成到初始input word embeddings中,除了共指信息之外并沒有引入其他有意義的依賴信息。
而最近的graph-based方法通常依賴于通用編碼器(通常為LSTM/BERT)來首先獲取輸入文檔的上下文表示。然后,他們通過構造精心設計的圖來介紹實體結構,在圖中通過傳播相應地更新實體表示。由于編碼網絡和圖網絡之間的異質性,這種方法將上下文推理階段和結構推理階段隔離開來,這意味著上下文表示不能首先從結構指導中受益。
作者認為,structural dependencies應納入編碼網絡內以及整個系統中,由此提出SSAN (Structured\ Self-Attention Network),可以有效地在其構造塊內以及從下至上的所有網絡層中對這些依賴性進行建模。
Approach
How to formulate the structure of entities?
Co-occurrence structure:區分依賴于局部上下文的intra-sentential interactions和需要交叉句子推理的句子間交互。
Coreference structure:區分兩個mention是否指向同一個entity
作者提出了具有兩個可替代的transformation modules的structured self-attention機制,如下圖所示:
How to model entity structure?
即為原始的self-attention,而transformation modules作用為調節從到的注意力流,其結果作為原始attention的bias。通過這樣簡單有效的融合,該模型能夠受益于結構依賴性的指導。
Experiment
數據集:DocRED、CDR、GDA
實驗結果:
實驗結果顯示,在DocRED數據集上,SSAN未跟GAIN和ATLOP對比,我們可以看到在未加Adaptation的情況下,SSAN(roberta-based)的F1比ATLOP(Roberta-based)低1%,加上Adaptation后超越ATLOP躍居目前DocRED榜單的第一名,這里Adaptation指采用了遠程監數據對模型進行了預訓練,這也表明遠程數據的預訓練對這種加入結構先驗信息的方法非常重要。
總之,SSAN將structural dependencies納入encoder網絡內以及整個系統中,能夠同時地進行context reasoning and structure reasoning,這種方法很有啟發意義,作者也提到SSAN方法很容易適用于其他各種基于Transformer的預訓練語言模型以融合任何結構上的依賴性。
4 未來展望
盡管文檔級關系抽取取得了一定程度的發展,其性能仍難以滿足實際應用的需求。未來可能的方向有:
1. 設計文檔實體結構相關的預訓練。現有的MLM預訓練目標并不能很好的建模實體及實體間的隱式關聯,因此,一個能夠顯式建模實體及其包含的語義關系的預訓練目標可以增強文檔的實體的表達能力。目前已經有工作[4][7]開始嘗試基于對比學習設計更好的實體關系預訓練模型。
2. 減輕關系標簽分布不平衡。文檔級關系抽取中的關系存在明顯的長尾分布,且大量的實體間不存在關系,因此類別分布不平衡在一定程度上影響模型效果。[2]針對這一問題提出了動態閾值的方法,然而對于長尾部分的關系仍然缺乏較好的模型進行抽取。
3. 引入外部知識。語言模型缺乏對實體知識的認知,先前的工作表明注入實體等事實類型知識可以顯著提升知識敏感的任務性能,[13]提出了一個注入Probase知識庫的關系抽取模型,然而知識庫存在稀疏性和噪音,更加高效可靠的知識注入方法仍然值得研究。
4. 設計更好的實體交互模型。目前關系抽取中僅考慮實體對之間的一階交互,缺乏對多個實體對之間的高階交互建模。盡管基于文檔圖的模型在一定程度上使得模型得學習了實體與實體之間的交互信息,然而對于實體圖中相聚較遠的節點,實體之間缺乏足夠的信息流通,制約模型的邏輯推理能力。
參考文獻
[1] Yao etal.,?DocRED: A large-scale document-level relation extraction dataset, ACL2019
[2]?Zhou etal., Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling, AAAI2021
[3] Xu etal., Entity Structure Within and Throughout: Modeling Mention Dependencies forDocument-Level Relation Extraction, AAAI2021
[4] Qin etal., ERICA: Improving Entity and Relation Understanding for Pre-trained Language Models via Contrastive Learning
[5] Huang etal., Entity and Evidence Guided Relation Extraction for DocRED
[6] Xiao etal., Denoising Relation Extraction from Document-level Distant Supervision, EMNLP2020
[7] Ye etal., Coreferential Reasoning Learning for Language Representation, EMNLP2020
[8] Wang., Fine-tune BERT for DOCRED with Two-step Process
[9] Tang etal., Hin: Hierarchical Inference Network for Document-level Relation Extraction, PAKDD2020
[10] Jia etal., Document-level N-ary Relation Extraction with Multiscale Representation Learning, NAACL2019
[11] Eberts etal., An End-to-end Model for Entity-level Relation Extraction using Multi-instance Learning
[12] Eyal etal., Bootstrapping Relation Extractors using Syntactic Search by Examples
[13] Li etal., Multi-view Inference for Relation Extraction with Uncertain Knowledge, AAAI2021
[14]?Christopoulou etal., Connecting the Dots: Document-level Neural Relation Extraction with Edge-oriented Graphs, EMNLP2019
[15]?Nan etal., Reasoning with Latent Structure Refinement for Document-Level Relation Extraction, ACL2020
[16] Zeng etal., Double Graph Based Reasoning for Document-level Relation Extraction, EMNLP2020
[17] Xu etal., Document-level Relation Extraction with Reconstruction, AAAI2021
[18] Zhou etal., Global Context-enhanced? Graph? Convolutional? Networks for Document-level Relation Extraction, COLING2020
[19] Zhang etal., Document-level Relation Extraction with Dual-tier Heterogeneous Graph, COLING2020
[20] Wang etal., Global-to-local? Neural? Networks for Document-level? Relation? Extraction, EMNLP2020
[21] Li etal., Graph Enhanced Dual Attention Network for Document-level Relation Extraction, COLING2020
[22] Peng etal., Cross-sentence N-ary Relation Extraction with Graph LSTMs, TACL2017
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文小综 | 文档级关系抽取方法(下)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 史上最全Spring面试71题与答案
- 下一篇: 论文浅尝 | 当Hearst还不够时:用