ACL 2018论文解读 | 基于路径的实体图关系抽取模型
在碎片化閱讀充斥眼球的時代,越來越少的人會去關注每篇論文背后的探索和思考。
在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點擊本文底部的「閱讀原文」即刻加入社區,查看更多最新論文推薦。
這是 PaperDaily 的第?104?篇文章本期推薦的論文筆記來自 PaperWeekly 社區用戶 @hawksilent。本文是曼徹斯特大學發表于 ACL 2018 的工作,文章提出了一種新的基于圖的神經網絡關系抽取模型。
文章在沒有使用任何外部工具的情況下,在 ACE 2005 數據集上對模型進行了測試,并將結果與 SPTree 系統進行了對比。實驗結果顯示,這篇文章提出的模型與當前最先進的 SPTree 系統相比,兩者的性能沒有明顯的統計學差異。
如果你對本文工作感興趣,點擊底部閱讀原文即可查看原論文。
關于作者:盧靖宇,西安電子科技大學碩士,研究方向為自然語言處理。
■?論文 | A Walk-based Model on Entity Graphs for Relation Extraction
■ 鏈接 | https://www.paperweekly.site/papers/2289
■ 作者 | Fenia Christopoulou / Makoto Miwa / Sophia Ananiadou
引言
當一句話中存在多種關系時,不同關系之間往往會存在一定的聯系,即目標實體對的關系可能會受到同一個句子中其他實體間關系的影響。例如,如下圖中虛線所示:“Toefting”既可以通過介詞“in”以直接的方式與 “capital”建立關系,也可以通過“teammates”以間接的方式與“capital”建立關系。
因此,在進行關系抽取(RE)時需要同時考慮這些關聯關系,借此來對實體之間的依賴關系建模。然而,現有的大多數 RE 模型在抽取關系時往往會忽略不同關系間的這種關聯性。
針對這一情況,這篇文章提出了一種基于實體圖的神經關系抽取模型,該模型用圖的方式來表達一句話中多個實體間存在的多種關系。句子中的實體被表示為圖中的節點,實體間的關系則構成圖的定向邊,模型用一個實體及其上下文來初始化一條邊,這樣,任意兩個實體之間就會形成由多個邊連接組成的、長度不等的多條路徑。模型通過迭代的方式,將兩個實體之間多條路徑逐漸聚合為一條直連路徑,該直連路徑即對應于實體關系的最終表示。
本文的創新點和貢獻主要有以下三個方面:
1. 提出一種基于路徑的神經圖模型,能夠處理一句話中存在多種實體及多個關系的關系抽取任務;
2. 提出一種迭代算法,可以將兩個實體之間多個不同長度的路徑融合為一條直連路徑;
3. 通過實驗證實,文章提出的模型在不使用任何外部句法工具的情況下,即可達到與當前最先進算法相近的性能。
模型
文章提出的模型由 5 層組成,如下圖所示:嵌入層(embedding layer),BLSTM 層(BLSTM Layer),邊表示層(edge representation layer),路徑融合層(walk aggregation layer),分類層(classification layer)。?
模型的輸入為句子中單詞的詞嵌入,利用這些詞嵌入生成實體對的向量表達形式。實體對的表示向量包含以下信息:目標實體對、目標實體對的上下文單詞、上下文單詞與實體對的相對位置以及實體對之間的路徑。在分類器中,這些表示向量將被用于預測實體對的關系類型。
嵌入層
負責生成維度分別為 nw、nt、np 向量,分別對應于單詞、實體的語義類型、目標實體對的相對位置。單詞和語義類型分別映射為實值向量 w 和 t。目標實體對的相對位置由句子中單詞的位置來決定。以第 1 節中的例子為例,“teammates”與“capital”的相對位置為 -3,“teammates”與“Toefting”的相對位置為 +16。文章利用實值向量 p 表示這些相對位置。?
BLSTM層
每個句子的詞嵌入將輸入倒一個雙向長短期記憶網絡(BLSTM)中,BLSTM 輸出一個新的詞嵌入 h,該詞嵌入考慮了單詞的序列信息。對于句子中的每一個單詞 t,其在 BLSTM 中前向網絡和反向網絡的輸出將被連接成一個 ne 維向量,即。?
邊表示層
BLSTM 輸出的詞嵌入在這一層將被進一步分為兩個部分:目標實體對的表示向量以及目標實體對特定上下文的表示向量。
目標實體對的上下文可以用句子中除已知實體外的其余全部單詞來表示。實體對的具體表示方法如下:
一個目標實體對包含兩個實體 ei 和 ej。如果一個實體由 I 個單詞組成,則求這 I 個單詞的 BLSTM 向量的平均值,用該平均值作為實體的 BLSTM 向量,即,其中 I 表示組成實體 e 的單詞的數量。?
首先,為每對實體創建一個表示向量,然后構造每個實體對的上下文的表示向量。實體 ei 的表示向量由以下幾部分連接而成:實體的 BLSTM 向量 ei,實體類型的表示向量 ti,以及實體 ei 與 ej 相對位置的表示向量 pij。類似的,對于實體 ej 用 pji 表示其與實體 ei 的相對位置。最終,實體對可以表示為:和。?
然后,構建上述實體對上下文的表示向量。對于目標實體對 (ei,ej) 上下文的每一個單詞 ωz,其表示向量由以下幾部分連接而成:單詞 ωz 的 BLSTM 向量 ez,單詞 ωz 的語義類型的表示向量 tz,單詞 ωz 與實體 ei、ej 的相對位置的表示向量(ωz 與 ei 的相對位置表示 pzi,ωz 與 ej 的相對位置表示 pzj)。
綜上,目標實體對的上下文單詞的最終表示為:。對于每一個句子,其所有實體對的上下文表示向量可以用一個 3 維矩陣 C 表示,矩陣的行和列分別對應實體,矩陣的深度對應上下文單詞。?
之后,通過注意力機制將每對目標實體的上下文表示向量聚合為一個向量。根據 Zhou et al. 2016 提出的方法,計算目標實體對上下文單詞的權重,然后計算它們的加權平均值:
其中,表示可訓練的注意力向量,α 表示加權向量,為實體對上下文表示向量加權平均后的結果。?
最后,將目標實體對的表示向量與其上下文的表示向量連接起來。通過使用一個全連接線性層,其中 ns<nm,以此來降低結果向量的維度。該向量即為節點 i 和 j 之間的邊(或單位路徑):。
路徑融合層
模型的主要目的是通過使用實體之間的間接關系來判斷實體之間的直接關系。因此,本層的目標是:將實體對之間的多個不同長度的路徑融合成一條路徑。為了達成這一目標,模型將一個句子表示成一個有向圖,其中圖的節點表示句子中的實體,圖中的邊表示兩個節點(實體)之間的關系。
目標實體之間的單位長度路徑表示為,以此作為一個基本的構建模塊,可進一步用于創建和聚合兩個實體之間長度為 l(l≥1) 的路徑。
基于路徑的算法可以看成兩步處理過程:路徑構建和路徑融合。在第一步處理過程中,通過一種改進的非線性變換將圖中兩個連續邊聯合起來:
其中,表示實體 ei 和 ej 之間長度為 λ 的路徑,? 表示元素乘法,σ 表示 sigmoid 非線性函數,為一個可訓練的權值矩陣。等式 (2) 得到一個長度為 2λ 的路徑。?
在路徑融合步驟中,模型將初始路徑(長度為 λ)和擴展路徑(長度 2λ)線性地結合起來:
其中,β 為權重,用于表示路徑的重要程度。
綜上,當 λ=1 時,利用等式 (3) 可創建一個長度為 2 的路徑。之后,取 λ=2,再次使用等式 (3) 創建一個長度為 4 的路徑。不斷重復上述過程直到達到預期的最大路徑長度,即 2λ=l。?
分類層
在整個網絡的最后一層,將上一層的輸出輸入到一個使用 softmax 函數的全連接層:
其中,是權值矩陣,nr 表示關系類型的總數目,br 表示偏置向量。
實驗
文章在 ACE 2005 的關系抽取任務數據集上對提出的模型進行了測試。
上表所示為模型與 SPTree 系統在 ACE2005 數據集上性能的比較,第一行為 SPTree 系統得分,第二行為基線模型得分,第三行為使用了注意力機制的基線模型得分,余下三行為文章提出的模型使用不同長度路徑時的得分。表中顯示了準確率 P、召回率 R 和 F1 得分三項指標。
準確率指標P:雖然準確率并沒有隨著基于路徑的圖模型的使用以及路徑長度的增加而線性提高,甚至還要低于基線模型,但模型在不同路徑長度下的準確率 P 均與 SPTree 系統十分接近,證明基于路徑的圖模型在關系抽取任務中的有效性,只是性能還有待提升。
召回率指標R:模型召回率隨著路徑的增加而逐漸提高,直到路徑增加到 l=8 時發生回落。說明增加路徑長度是提升真正例識別數量的一種有效手段,也從側面驗證了通過實體的間接關系來識別目標實體對直接關系的可行性和有效性。
F1得分:圖中,基線模型的 F1 得分為 61.4%,在所有模型中為最低。通過使用注意力機制可以將其 F1 得分提升 1.3 個百分點至 62.7%。在此基礎之上,使用基于路徑的模型,模型 F1 得分隨著路徑長度的增加而增加,l=4 時模型 F1 得分最高為 64.2%,當路徑長度增加至 8 時 F1 得分出現回落。若僅從 F1 得分指標看,文章模型在關系提取任務中的性能已與當前比較先進的算法十分接近。
下表所示為,在擁有不同實體數量的句子中,使用不同長度路徑時模型的 F1 得分。其中,第一行表示路徑長度,第一列表示句子中實體的數量。觀察可知,當句子中實體數量較少時,基于路徑的圖模型與普通模型相比優勢并不明顯,甚至還略顯不如。但當句子中的實體數量較多時,基于路徑的圖模型與普通模型相比性能提升明顯,說明基于路徑的圖模型適用于處理句子中實體數量較多的情況。
除了上述實驗之外,文章還將模型與 Nguyen and Grishman 2015 提出的 CNN 模型進行了對比。實驗中,將路徑長度設置為 l=4,得到的 P/R/F1(%) 分別為 65.8/58.4/61.9,而 CNN 模型相應的得分分別為 71.5/53.9/61.3。對比發現,文章模型的 F1 得分高于 CNN 模型 0.6 個百分點。
總結
當前,在關系抽取任務中使用最多的是 RNNs 及其各種改進算法,但這些方法都沒有考慮句子中關系之間的依賴性,在處理句子中存在多個實體對的情況時沒有充分利用實體間的間接關系。與這些方法不同,這里介紹的文章,采用基于路徑的實體圖模型,在識別目標實體對的關系時充分使用實體間的間接關系。
雖然,也有一些其他的算法,也是針對句子中存在多種關系的情況(Gupta et al., 2016; Miwa and Sasaki, 201421; Li and Ji, 2014)。但是,這些算法無法對已知實體路徑建模。
本文通過實驗,證明了基于路徑的圖模型在關系抽取任務中的可行性和有效性。雖然從實驗結果看,其性能與當前最先進的算法相比還存在一定差距,但是將基于路徑的圖模型引入關系抽取任務是一種新的思路,對此類模型的研究目前尚未大規模展開,因而模型性能暫時不佳也實屬正常,這就為我們下一步開展后續工作提供了研究思路和提升空間。
整體而言,這篇文章的啟發性意義大于其模型的實用意義。期待下一步在此思路的基礎上進一步提升模型性能。
本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學習、數據挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區!
點擊標題查看更多論文解讀:?
網絡表示學習綜述:一文理解Network Embedding
神經網絡架構搜索(NAS)綜述
從傅里葉分析角度解讀深度學習的泛化能力
ECCV 2018 | 從單幀RGB圖像生成三維網格模型
ECCV 2018 | 基于三維重建的全新相機姿態估計方法
ECCV 2018 | 騰訊AI Lab提出視頻再定位任務
KDD 18 | 斯坦福大學提出全新網絡嵌入方法
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢??答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文
總結
以上是生活随笔為你收集整理的ACL 2018论文解读 | 基于路径的实体图关系抽取模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 从“猿”到“金刚”,机器学习让你在职业生
- 下一篇: 变分自编码器VAE:一步到位的聚类方案