远程监督关系抽取漫谈:结合知识图谱和图神经网络
遠程監督關系抽取是一種用知識圖譜去對齊樸素文本的標注方法,屬于半監督學習算法,自然而然提取特征的時候就會出現很多噪聲。比如兩個實體之間還有別的關系或者是沒有關系,這樣的訓練數據會對關系抽取器產生影響。現有算法的難點是:
1)在處理多實體對以及它們的關系問題中,不能充分利用多跳推理模式。
2)最近研究考慮基于知識圖譜擴展上下文知識,以便改進關系抽取性能。然而,靜態地添加知識圖譜的所有上下文信息會產生負面影響。如何能夠動態地利用來自知識圖譜的上下文,以及所選知識圖譜上下文是否會對整體性能產生積極的影響?
圖神經網絡解決了現有模型只能顯示提取兩實體之間的關系,不能進行關系信息的傳遞和推理問題。本篇綜述集中于利用圖嵌入和動態選擇知識圖譜上下文來解決關系抽取問題。針對這兩個主要問題,選取比較經典的三篇文獻來和大家交流討論。
GP-GNNs
論文標題:
Graph Neural Networks with Generated Parameters for Relation Extraction
論文鏈接:
https://arxiv.org/abs/1902.00756
1.1 論文工作
這是一篇比較經典的遠程監督關系抽取論文,由于現存的方法很容易進行關系抽取,卻忽略了關系推理過程。論文提出了一種根據自然語言句子生成圖神經網絡參數的方法,使其能夠處理非結構化文本輸入的關系推理。
1.2 論文方法
GP-GNN 首先用文本序列中的實體構造一個全連接圖, 之后使用三個模塊來處理關系推理:(1)使邊能夠對自然語言中的豐富信息進行編碼的編碼模塊;(2)在各個節點之間傳播關系信息的傳播模塊;(3)使用節點表示進行預測的分類模塊。編碼模塊將一系列向量表示作為輸入,并輸出一個轉移矩陣, 傳播模塊利用生成的轉移矩陣將隱藏狀態從節點傳播到其鄰居,分類模塊根據節點表示提供與任務相關的預測
1.2.1 Encoding Module
通過以下公式,編碼模塊將序列轉換為邊相關的轉移矩陣,即傳播模塊的參數:
1.2.2 Propagation Module
傳播模塊逐層學習節點的表示形式,節點的初始嵌入(即第 0 層的表示)與任務相關,可以是對節點特征進行編碼的嵌入,也可以是 one-hot 編碼嵌入。
1.2.3 Classification Module
分類模塊將節點表示作為輸入和輸出預測,GP-GNN 的損失公式為:
1.2.4 Relation Extraction with GP-GNNs
給定句子 ,此句子中的一組關系 和一組實體,其中每個 由一個或一系列 token 組成,從文本中提取關系是為了識別每個實體 之間的成對關系 。
Encoding Module
首先將句子中的位置嵌入與單詞嵌入連接起來:。
BiLSTM 通過將前向 LSTM 的尾部隱藏狀態和后向 LSTM 的頭部隱藏狀態串聯在一起來編碼序列,MLP 表示具有非線性激活的多層感知器。
Propagation Module
提取實體 和實體? 之間的關系,它們的初始嵌入記為 ,,而其他實體的初始嵌入全部設置為零。為頭、尾實體的初始嵌入設置特殊值作為一種“flag”消息,并通過傳播模塊來傳遞這些消息。, 也可以攜帶有關 subject 和 object 實體的先驗知識,實驗中設置 ,。
Classification Module
輸出模塊采用目標實體對的嵌入作為輸入,并運用 softmax 函數來進行分類:
損失函數為:
1.3 實驗
論文在人工標注的測試數據集和遠程監督標注數據集上進行了實驗。本文最佳模型在所有三個測試集上的性能均明顯優于所有基模型。這些結果表明 GP-GNN 模型可以使用自然語言生成的參數對完全連接的圖成功進行推理。這些結果還表明本模型不僅在句子級關系提取上表現良好,而且在袋級關系提取上也有所改進。
RECON
論文標題:
RECON: Relation Extraction using Knowledge Graph Context in a Graph Neural Network
論文來源:
WWW 2021
論文鏈接:
https://dl.acm.org/doi/abs/10.1145/3442381.3449917
2.1 論文工作
論文提出了一種基于知識圖譜上下文的圖神經網絡關系抽取方法(RECON),能自動識別句子中的關系并且對齊到知識圖譜(KG)。RECON 使用一個圖神經網絡來學習句子和存儲在 KG 中的事實的表示,提高了提取質量。
2.2 論文方法
RECON 架構如圖 1 所示。句子嵌入模塊對輸入的句子進行靜態嵌入檢索,實體屬性上下文(EAC)模塊使用實體屬性(如別名、標簽、描述和實例)從 KG 中獲取句子中的每個實體,并使用相應的上下文表示來豐富實體嵌入。三元組語境學習模塊學習給定實體的 2 跳鄰域內實體和關系的表示。圖神經網絡最終被用來聚合實體屬性、KG 三元組和句子上下文,并使用一個關系分類層生成最終輸出。
2.2.1 Entity Attribute Context (EAC)
EAC 模塊使用實體屬性(如別名、標簽、描述和實例),從 KG 中獲取句子中的每個實體,并使用相應的上下文表示來豐富實體嵌入。對于每一個屬性中,將單詞和字符嵌入連接起來,并將它們通過 BiLSTM 編碼器傳遞。BiLSTM 網絡的最終輸出被堆疊并送入圖2中描述的一維卷積網絡(CNN)。
2.2.2 Triple Context Learner
因為每個實體可能在不同的上下文中涉及多個關系,論文的思想是學習在獨立的向量空間中三元組的實體和關系嵌入,以捕捉更有表現力的表示。三元組的向量表示分別由初始頭實體向量、初始尾實體向量和初始關系向量表示:
每個三元組的相對重要性即可由三元組的向量表示得到:
頭實體新的嵌入向量為三元組嵌入的加權和:
對于關系嵌入,將初始關系嵌入矩陣進行線性轉換,得到新的關系嵌入向量。對于一個有效的三元組嵌入,必須使下面的式子成立:
與之前的方法所不同的是,論文將實體和關系嵌入在了不同的空間中。因此,需要將實體從實體空間轉換到關系空間,論文解決此問題應用了一個非線性轉換過程(證明過程見原文)。
因此,上面的滿足公式修正為:
定義距離公式為:
因此 loss 函數定義為:
表示有效三元組, 表示無效三元組。作者認為在數據集中出現的實際三元組是正的(有效的)三元組,而不在數據集中的其他三元組是無效的。例如,如果在 KG 中,實體 Barack Obama 和 Michelle Obama 有一個有效的關系“配偶”,那么有效的三聯體是 <Barack Obama, spouse, Michelle Obama>。無效的三元組將包含這兩個實體之間不存在的關系。
2.2.3 ?Aggregating KG Context
Aggregating KG Context 由編碼器模塊、傳播模塊和分類模塊組成。編碼器將單詞向量連接到句子中的位置向量作為輸入。
編碼器模塊將句子中的詞語向量和位置向量串聯起來,論文在 BiLSTM 中使用連接詞嵌入,然后使用全連接網絡生成轉換矩陣,如下所示:
然后,傳播模塊根據下式分層學習實體節點 的表示:
在分類模塊中,將傳播模塊中每一層學習到的向量串聯起來,用于連接關系,并將從三元組內容學習到的內容與其串聯送入分類層得到每個關系的概率:
上式是在同一個向量空間的嵌入,對于從不同向量空間的嵌入,論文計算了對應關系向量的相似性,并利用不同空間的實體嵌入,并應用了非線性函數來得到聚合器的最終表示:
作者對于每一個關系取實體對的平移向量,得到距離度量的范數,并將每個關系的這些范數連接起來,得到一個平移向量。
最后將從傳播階段和實體嵌入中學習到的向量連接起來,對目標關系進行分類。
2.3 實驗
作者使用兩個標準數據集進行實驗,分別為 Wikidata dataset 和 NYT Freebase dataset,并且對比了最新的研究方法。作者配置 RECON 模型應用各種上下文輸入向量,具體模型主要有:KGGAT-SEP,RECON-EAC,RECON-EAC-KGGAT和 RECON。從實驗結果可以看出,模型的每一個部分都對精度提升有不同程度的貢獻。
KGPool
論文標題:
KGPool: Dynamic Knowledge Graph Context Selection for Relation Extraction
論文來源:
ACL-IJCNLP 2021
論文鏈接:
https://arxiv.org/abs/2106.00459
3.1 論文工作
在這篇論文中,KGPool 利用圖卷積網絡(GCN)中的自注意機制從 KG 中選擇一個子圖來擴展句子上下文,它使用神經方法學習這些事實的表示(實體別名、實體描述等),補充句子上下文。與靜態地使用所有擴展事實的現有方法不同,KGPool 將這種擴展條件設置在句子上。
3.2 論文方法
KGPool 由三個部分組成:Graph Construction 將句子、實體及其屬性聚合為異質信息圖(HIG)用于輸入表示,Context Pooling 利用圖卷積中的自注意機制,利用節點特征和圖拓撲計算實體屬性的注意分數,Context Aggregator 將 HIG 的句子、實體、上下文表示作為輸入,并對實體之間的目標關系進行分類。
3.2.1 Graph Construction
圖 2 給出了不同實體屬性構建圖的步驟,通過連接句子的單詞和字符嵌入,使用Bi-LSTM 將句子 轉換為另一種表示形式。
并且為每個實體和實體屬性創建類似的表示:
對于關于句子上下文的知識表示,論文引入了特殊的圖 ,表示一個異構信息圖,其中 表示鄰接矩陣, 表示節點特征。
3.2.2 Context Pooling
context pooling 建立在圖卷積網絡(GCN)的三層和與它們相關聯的讀出層之上。在 HIG 中,實體節點不包含其鄰居的信息。因此,論文的目標是利用相鄰節點的上下文信息來豐富每個實體節點。采用 GNN 變體,利用其消息傳遞體系結構,從消息傳播函數中學習節點嵌入。
圖讀出層定義為:
以上主要集中學習節點的特征,下面 KGpool 將使用自注意力機制來學習每個實體屬性節點的重要程度。
并且提出了一種基于上下文系數的節點選擇方法:
并且過濾掉不太重要的節點屬性,形成 Context Graph:
中間表示如下所示:
3.2.3 Context Aggregator
最后,KGPool 將潛在表示(句子上下文)與學習到的結構化表示相結合,以 CG 和句子上下文的形式共同學習豐富的 KG 上下文,得到最終的關系為:
3.3 實驗
論文所用數據集與上一篇文章相同是 Wikidata dataset 和 NYT Freebase 數據集,并與最先進的方法做了對比實驗。從實驗結果可以看出,總的來說,KGPool 為句子上下文稀疏的結構提供了一種有效的知識表示。隨著選擇系數 的不同,對實驗結果也有比較重要的影響。
總結
這三篇文獻集中于基于知識圖譜和圖神經網絡的遠程監督關系抽取。在關系抽取任務中,多跳關系推理是必不可少的。目前,圖神經網絡是比較有效的方法之一。第一篇文獻介紹了利用圖神經在無結構化數據上進行關系推理。
考慮到知識庫中除了實體關系之外,還有很多其他的信息可以加以利用,因此在第二篇模型中考慮了這部分特征信息,比如關系的別名信息以及實體的類別信息。在第三篇論文中,通過篩選不重要的節點特征信息來提升模型精度。總的來說,遠程監督關系抽取需要結合重要的實體特征信息和句子的上下文語境信息才能很好地提升抽取性能。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的远程监督关系抽取漫谈:结合知识图谱和图神经网络的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 博士申请 | 北京理工大学宋承天老师组招
- 下一篇: 遨游中国2客车在哪里